Дерево решений в машинном обучении - Сплит создание и построение дерева

Введение в дерево решений в машинном обучении

Дерево решений в машинном обучении получило широкое распространение в современном мире. В ML много алгоритмов, которые используются в нашей повседневной жизни. Одним из важных алгоритмов является дерево решений, которое используется для классификации, а также решения проблем регрессии. Поскольку это прогнозная модель, анализ дерева решений выполняется с помощью алгоритмического подхода, когда набор данных разбивается на подмножества в соответствии с условиями. Само имя говорит, что это древовидная модель в форме операторов if-then-else. Чем глубже дерево и чем больше узлов, тем лучше модель.

Типы дерева решений в машинном обучении

Дерево решений - это древовидный граф, в котором сортировка начинается с корневого узла до конечного узла, пока цель не будет достигнута. Он является наиболее популярным для принятия решений и классификации на основе контролируемых алгоритмов. Он создается путем рекурсивного разделения, где каждый узел выступает в качестве тестового примера для некоторых атрибутов, а каждое ребро, производное от узла, является возможным ответом в тестовом примере. Корневой и конечный узлы являются двумя объектами алгоритма.

Давайте разберемся с помощью небольшого примера:

Здесь корневым узлом является то, что вам меньше 40 или нет. Если так, то вы едите фаст-фуд? Если да, то вы негодны, или же вы в форме. А если вам больше 40, то вы занимаетесь спортом? Если это так, то вы годны, а то нет. Это была в основном бинарная классификация.

Существует два типа деревьев решений:

Деревья классификации: приведенный выше пример является классификационным деревом на основе категорий.
Деревья регрессии : В алгоритме этого типа решение или результат являются непрерывными. Он имеет один числовой вывод с большим количеством входов или предикторов.

В дереве решений типичная задача - определить атрибут на каждом узле. Процесс называется выбором атрибута и имеет некоторые меры, чтобы использовать его для идентификации атрибута.

а. Информационный Прибыль (IG)

Информационный Прирост измеряет, сколько информации отдельная функция дает о классе. Он действует как основной ключ для построения дерева решений. Атрибут с самым высоким информационным усилением разбивается первым. Таким образом, дерево решений всегда максимизирует получение информации. Когда мы используем узел для разделения экземпляров на более мелкие подмножества, энтропия меняется.

Энтропия: это мера неопределенности или примеси в случайной переменной. Энтропия решает, как дерево решений разделяет данные на подмножества.

Уравнение для информационного усиления и энтропии выглядит следующим образом:

Прирост информации = энтропия (родитель) - (средневзвешенная * энтропия (дети))

Энтропия: ∑p (X) log p (X)

P (X) здесь - доля примеров в данном классе.

б. Индекс Джини

Индекс Джини - это показатель, который определяет, как часто случайно выбранный элемент будет неверно идентифицирован. В нем четко указано, что атрибут с низким индексом Джини имеет первое предпочтение.

Индекс Джини: 1-∑ р (Х) 2

Сплит создание

Чтобы создать сплит, сначала нам нужно рассчитать показатель Джини.
Данные разделяются с использованием списка строк, имеющих индекс атрибута и значение разделения этого атрибута. После того, как правый и левый набор данных найдены, мы можем получить значение разделения по шкале Джини из первой части. Теперь значение разделения будет решающим, где будет находиться атрибут.
Следующая часть оценивает все расщепления. Наилучшее возможное значение рассчитывается путем оценки стоимости разделения. Наилучшее разделение используется как узел дерева решений.

Построение дерева - дерево решений в машинном обучении

Есть два шага для построения дерева решений.

1. Создание терминального узла

При создании терминального узла самое важное - это отметить, нужно ли нам прекращать выращивать деревья или продолжать. Для этого можно использовать следующие способы:

Максимальная глубина дерева: когда дерево достигает максимального количества узлов, выполнение на этом останавливается.
Минимальное количество записей узла: его можно определить как минимум шаблонов, которые требуются узлу. Затем мы можем прекратить добавление терминальных узлов, как только мы получим эти минимальные записи узлов.

2. Рекурсивное расщепление

После того как узел создан, мы можем рекурсивно создать дочерний узел, разделив набор данных и вызвав одну и ту же функцию несколько раз.

прогнозирование

После того как дерево построено, прогнозирование выполняется с помощью рекурсивной функции. Повторяется тот же процесс прогнозирования с левыми или правыми дочерними узлами и так далее.

Преимущества и недостатки дерева решений

Ниже приведены некоторые преимущества и недостатки:

преимущества

Дерево решений имеет некоторые преимущества в машинном обучении:

Комплексный: он принимает во внимание каждый возможный результат решения и соответственно отслеживает каждый узел до заключения.
Конкретные: Деревья решений присваивают конкретное значение каждой проблеме, решению и результатам. Это уменьшает неопределенность и двусмысленность, а также повышает ясность.
Простота: дерево решений является одним из самых простых и надежных алгоритмов, поскольку в нем нет сложных формул или структур данных. Для расчета требуются только простая статистика и математика.
Универсальность: деревья решений могут быть построены вручную с использованием математики, а также использоваться с другими компьютерными программами.

Недостатки

Дерево решений имеет некоторые недостатки в машинном обучении:

Деревья решений менее подходят для оценки и финансовых задач, где нам нужны соответствующие значения.
Это подверженный ошибкам алгоритм классификации по сравнению с другими вычислительными алгоритмами.
Это вычислительно дорого. В каждом узле разделение кандидатов должно быть отсортировано до определения лучшего. Существуют и другие альтернативы, которым следуют многие хозяйствующие субъекты для решения финансовых задач, поскольку дерево решений слишком дорого для оценки.
При работе с непрерывными переменными дерево решений не подходит как лучшее решение, поскольку имеет тенденцию терять информацию при категоризации переменных.
Иногда это нестабильно, так как небольшие изменения в наборе данных могут привести к формированию нового дерева.

Вывод - Дерево решений в машинном обучении

Будучи одним из наиболее важных и контролируемых алгоритмов, Дерево Решений играет жизненно важную роль в анализе решений в реальной жизни. В качестве прогностической модели, она используется во многих областях для своего подхода разделения, который помогает в определении решений, основанных на различных условиях, либо методом классификации, либо методом регрессии.

Дерево решений в машинном обучении - Сплит создание и построение дерева

Содержание:

Введение в дерево решений в машинном обучении

Типы дерева решений в машинном обучении

Построение дерева - дерево решений в машинном обучении

1. Создание терминального узла

2. Рекурсивное расщепление

Преимущества и недостатки дерева решений

преимущества

Недостатки

Вывод - Дерево решений в машинном обучении

Рекомендуемые статьи

WordPress против Drupal - узнай 8 лучших отличий

Wordpress против Django - какой из них полезнее (Инфографика)

WordPress против Magento - узнайте 5 главных полезных отличий

WordPress vs Shopify - 8 самых удивительных отличий для изучения

WordPress против Joomla - Узнайте 6 самых удивительных сравнений

Шесть Сигма Процесс - Полное руководство по шести сигма-процессу

Шесть Сигма Модель - Изучите методологии шести сигм

Шесть Сигма Проект - Полное руководство по проекту Six Sigma

Пример проекта Six Sigma - Основные примеры проекта Six Sigma

Устав проекта Six Sigma - Структурирование Хартии проекта Six Sigma

Free Transform в Photoshop CC 2019 - Полное руководство

Как создать текстовый эффект Spray Paint в Photoshop

Создать звездное ночное небо в фотошопе

Пиксели, размер изображения и разрешение изображения в фотошопе

Эффект эскиза фото к карандашу в учебнике по Photoshop CC