1.2) Решающие деревья

Beschreibung

Карточки по второй части лекции первой недели курса "Машинное обучение" от Яндекса и ВШЭ на coursera.org
Sergei Fomin
Karteikarten von Sergei Fomin, aktualisiert more than 1 year ago
Sergei Fomin
Erstellt von Sergei Fomin vor mehr als 8 Jahre
76
0

Zusammenfassung der Ressource

Frage Antworten
Бинарное решающее дерево Это бинарное дерево, узлы которого - логические предикаты, а листья - классы объекта.
Алгоритм построения решающего дерева ID3 Суть: на каждом этапе выбираем лучшее разделение на классы по 1 признаку (ищем предикат с максимальной информативностью), проводим разделение и вызываемся рекурсивно. Алгоритм жадный, то есть глобально не оптимален.
Критерии ветвления - Критерий Джини: #{(xi,xj) : yi = yj и B(xi) = B(xj)} - D-критерий В. И. Донского: #{(xi,xj): yi != yj и B(xi) != B(xj)} - Энтропийный критерий - на практике почти тоже самое, чо критерий Джини
Обработка пропусков на стадии обучения Если предикат для объекта не определён, то его исключаем из рассмотрения на данном этапе; Для каждого узла подсчитываем вероятность того, что объект пойдёт налево/направо; Для каждого узла подсчитываем вероятность того, что по достижению этого узла объект потом окажется в каждом конкретном классе.
Обработка пропусков на стадии классификации Если значение предиката не определено, пускаем объект по обеим ветвям, при том результат взвешиваем с соответствующими вероятностями. В качестве конечного результата берём наиболее вероятный класс.
Достоинства решающих деревьев Гибкость, интерпретируемость, терпимость к пропускам, отсутствие необходимости в масштабировании, линейная сложность по длине выборки, нет отказов от классификации.
Недостатки решающих деревьев Переобучение - структура дерева сильно переусложняется; Фрагментация выборки - на листах разбиение статистически ненадёжно; Высокая чувствительность к шуму, составу выборки, критерию информативности.
Усечение дерева Разбиваем выборку на обучающую и контрольную. Каждый лист затем смотрим по контрольной выборке число ошибок: классификацией деревом из данной вершины, из его поддеревьев, отнесением к классу. В зависимости от результата сохраняем поддерево, укорачиваем либо терминируем.
CART - обобщение на случай регрессии Каждому листу соответствует среднее значение целевой функции тех объектов, которые до него дошли. Критерий оптимизации - СКО (с помощью МНК).
Идея критерия Minimal Cost-Complexity Pruning К целевой функции, которая оптимизируется, прибавляется высота листа, помноженная на некую константу регулярности.
Zusammenfassung anzeigen Zusammenfassung ausblenden

ähnlicher Inhalt

1.1) Введение
Sergei Fomin
2) Метрические и линейные методы классификации
Sergei Fomin
Вампиры
Maria-Karin Bell
PuKW Step 2
Mona Les
M1, Kurs 2: Einführung in die Forschungsmethoden - Unit 1 - Psychologie als eine empirische Wissenschaft: Warum brauchen wir Forschungsmethoden?
Chris Tho
Gegensätze
Antonia C
Bevölkerungssoziologie
Max H
Vetie Allgemeine Pathologie Altfragen 2016
Nele Unger
Vetie Histopathologie 2016
Cedric-Bo Lüpkemann
Vetie - Arzneimittelverordnung 2014
Schmolli Schmoll
Vetie - Milchhygiene 2012
steff Müller