Введение в дерево решений в машинном обучении

Дерево решений в машинном обучении получило широкое распространение в современном мире. В ML много алгоритмов, которые используются в нашей повседневной жизни. Одним из важных алгоритмов является дерево решений, которое используется для классификации, а также решения проблем регрессии. Поскольку это прогнозная модель, анализ дерева решений выполняется с помощью алгоритмического подхода, когда набор данных разбивается на подмножества в соответствии с условиями. Само имя говорит, что это древовидная модель в форме операторов if-then-else. Чем глубже дерево и чем больше узлов, тем лучше модель.

Типы дерева решений в машинном обучении

Дерево решений - это древовидный граф, в котором сортировка начинается с корневого узла до конечного узла, пока цель не будет достигнута. Он является наиболее популярным для принятия решений и классификации на основе контролируемых алгоритмов. Он создается путем рекурсивного разделения, где каждый узел выступает в качестве тестового примера для некоторых атрибутов, а каждое ребро, производное от узла, является возможным ответом в тестовом примере. Корневой и конечный узлы являются двумя объектами алгоритма.

Давайте разберемся с помощью небольшого примера:

Здесь корневым узлом является то, что вам меньше 40 или нет. Если так, то вы едите фаст-фуд? Если да, то вы негодны, или же вы в форме. А если вам больше 40, то вы занимаетесь спортом? Если это так, то вы годны, а то нет. Это была в основном бинарная классификация.

Существует два типа деревьев решений:

  1. Деревья классификации: приведенный выше пример является классификационным деревом на основе категорий.
  2. Деревья регрессии : В алгоритме этого типа решение или результат являются непрерывными. Он имеет один числовой вывод с большим количеством входов или предикторов.

В дереве решений типичная задача - определить атрибут на каждом узле. Процесс называется выбором атрибута и имеет некоторые меры, чтобы использовать его для идентификации атрибута.

а. Информационный Прибыль (IG)

Информационный Прирост измеряет, сколько информации отдельная функция дает о классе. Он действует как основной ключ для построения дерева решений. Атрибут с самым высоким информационным усилением разбивается первым. Таким образом, дерево решений всегда максимизирует получение информации. Когда мы используем узел для разделения экземпляров на более мелкие подмножества, энтропия меняется.

Энтропия: это мера неопределенности или примеси в случайной переменной. Энтропия решает, как дерево решений разделяет данные на подмножества.

Уравнение для информационного усиления и энтропии выглядит следующим образом:

Прирост информации = энтропия (родитель) - (средневзвешенная * энтропия (дети))

Энтропия: ∑p (X) log p (X)

P (X) здесь - доля примеров в данном классе.

б. Индекс Джини

Индекс Джини - это показатель, который определяет, как часто случайно выбранный элемент будет неверно идентифицирован. В нем четко указано, что атрибут с низким индексом Джини имеет первое предпочтение.

Индекс Джини: 1-∑ р (Х) 2

Сплит создание

  1. Чтобы создать сплит, сначала нам нужно рассчитать показатель Джини.
  2. Данные разделяются с использованием списка строк, имеющих индекс атрибута и значение разделения этого атрибута. После того, как правый и левый набор данных найдены, мы можем получить значение разделения по шкале Джини из первой части. Теперь значение разделения будет решающим, где будет находиться атрибут.
  3. Следующая часть оценивает все расщепления. Наилучшее возможное значение рассчитывается путем оценки стоимости разделения. Наилучшее разделение используется как узел дерева решений.

Построение дерева - дерево решений в машинном обучении

Есть два шага для построения дерева решений.

1. Создание терминального узла

При создании терминального узла самое важное - это отметить, нужно ли нам прекращать выращивать деревья или продолжать. Для этого можно использовать следующие способы:

  • Максимальная глубина дерева: когда дерево достигает максимального количества узлов, выполнение на этом останавливается.
  • Минимальное количество записей узла: его можно определить как минимум шаблонов, которые требуются узлу. Затем мы можем прекратить добавление терминальных узлов, как только мы получим эти минимальные записи узлов.

2. Рекурсивное расщепление

После того как узел создан, мы можем рекурсивно создать дочерний узел, разделив набор данных и вызвав одну и ту же функцию несколько раз.

прогнозирование

После того как дерево построено, прогнозирование выполняется с помощью рекурсивной функции. Повторяется тот же процесс прогнозирования с левыми или правыми дочерними узлами и так далее.

Преимущества и недостатки дерева решений

Ниже приведены некоторые преимущества и недостатки:

преимущества

Дерево решений имеет некоторые преимущества в машинном обучении:

  • Комплексный: он принимает во внимание каждый возможный результат решения и соответственно отслеживает каждый узел до заключения.
  • Конкретные: Деревья решений присваивают конкретное значение каждой проблеме, решению и результатам. Это уменьшает неопределенность и двусмысленность, а также повышает ясность.
  • Простота: дерево решений является одним из самых простых и надежных алгоритмов, поскольку в нем нет сложных формул или структур данных. Для расчета требуются только простая статистика и математика.
  • Универсальность: деревья решений могут быть построены вручную с использованием математики, а также использоваться с другими компьютерными программами.

Недостатки

Дерево решений имеет некоторые недостатки в машинном обучении:

  • Деревья решений менее подходят для оценки и финансовых задач, где нам нужны соответствующие значения.
  • Это подверженный ошибкам алгоритм классификации по сравнению с другими вычислительными алгоритмами.
  • Это вычислительно дорого. В каждом узле разделение кандидатов должно быть отсортировано до определения лучшего. Существуют и другие альтернативы, которым следуют многие хозяйствующие субъекты для решения финансовых задач, поскольку дерево решений слишком дорого для оценки.
  • При работе с непрерывными переменными дерево решений не подходит как лучшее решение, поскольку имеет тенденцию терять информацию при категоризации переменных.
  • Иногда это нестабильно, так как небольшие изменения в наборе данных могут привести к формированию нового дерева.

Вывод - Дерево решений в машинном обучении

Будучи одним из наиболее важных и контролируемых алгоритмов, Дерево Решений играет жизненно важную роль в анализе решений в реальной жизни. В качестве прогностической модели, она используется во многих областях для своего подхода разделения, который помогает в определении решений, основанных на различных условиях, либо методом классификации, либо методом регрессии.

Рекомендуемые статьи

Это руководство к дереву решений в машинном обучении. Здесь мы обсуждаем введение, Типы дерева решений в машинном обучении, создание раскола и построение дерева. Вы также можете просмотреть наши другие предлагаемые статьи, чтобы узнать больше -

  1. Типы данных Python
  2. Табличные наборы данных
  3. Cassandra Data Modeling
  4. Тестирование таблицы решений
  5. 8 этапов жизненного цикла машинного обучения