Алгоритм дерева решений - Объяснение и роль энтропии в дереве решений

Содержание:

Anonim

Введение в алгоритм дерева решений

Когда у нас возникает проблема, которая решает проблему классификации или регрессии, алгоритм дерева решений является одним из самых популярных алгоритмов, используемых для построения моделей классификации и регрессии. Они подпадают под категорию контролируемого обучения, то есть данных, которые помечены.

Что такое алгоритм дерева решений?

Алгоритм дерева решений - это контролируемый алгоритм машинного обучения, в котором данные непрерывно делятся в каждой строке на основе определенных правил до получения окончательного результата. Давайте рассмотрим пример. Предположим, вы открываете торговый центр и, конечно, хотите, чтобы он со временем развивался в бизнесе. Таким образом, в этом случае вам потребуется постоянных клиентов, а также новых клиентов в вашем торговом центре. Для этого вы должны подготовить различные бизнес и маркетинговые стратегии, такие как отправка электронных писем потенциальным клиентам; создавать предложения и сделки, ориентируясь на новых клиентов и т. д. Но как мы узнаем, кто является потенциальными клиентами? Другими словами, как мы классифицируем категорию покупателей? Как некоторые клиенты будут посещать один раз в неделю, а другие хотели бы посетить один или два раза в месяц, или некоторые будут посещать в четверть. Таким образом, деревья решений являются одним из таких алгоритмов классификации, которые будут классифицировать результаты по группам, пока не останется больше сходства.

Таким образом, дерево решений спускается в древовидном формате. Основными компонентами дерева решений являются:

  • Узлы принятия решений, где данные разделяются или, скажем, это место для атрибута.
  • Решение Ссылка, которая представляет собой правило.
  • Решение Листья, которые являются окончательными результатами.

Работа алгоритма дерева решений

Есть много шагов, которые участвуют в работе дерева решений:

1. Разделение - это процесс разделения данных на подмножества. Расщепление может быть сделано по различным факторам, как показано ниже, то есть по признаку пола, роста или по классу.

2. Обрезка - это процесс сокращения ветвей дерева решений, следовательно, ограничения глубины дерева

Обрезка также бывает двух видов:

  • Предварительная обрезка - здесь мы прекращаем выращивать дерево, когда не находим какой-либо статистически значимой связи между атрибутами и классом в каком-либо конкретном узле.
  • Post-Pruning - Для того, чтобы выполнить post-prune, мы должны проверить производительность модели тестового набора, а затем обрезать ветви, которые являются результатом чрезмерного шума из тренировочного набора.

3. Выбор дерева - Третий шаг - это процесс поиска наименьшего дерева, которое соответствует данным.

Примеры и иллюстрация построения дерева решений

Теперь, когда мы узнали принципы дерева решений. Давайте разберемся и проиллюстрируем это на примере.

Допустим, вы хотите играть в крикет в определенный день (например, в субботу). Какие факторы участвуют, которые решат, произойдет ли игра или нет?

Ясно, что основным фактором является климат, и ни у одного другого фактора нет такой большой вероятности, как у климата для прерывания игры.

Мы собрали данные за последние 10 дней, которые представлены ниже:

ДеньПогодатемпературавлажностьветерИграть в?
1облачныйГорячийВысокослабыйда
2СолнечныйГорячийВысокослабыйнет
3СолнечныймягкийОбычныйсильныйда
4дождливыймягкийВысокосильныйнет
5облачныймягкийВысокосильныйда
6дождливыйздоровоОбычныйсильныйнет
7дождливыймягкийВысокослабыйда
8СолнечныйГорячийВысокосильныйнет
9облачныйГорячийОбычныйслабыйда
10дождливыймягкийВысокосильныйнет

Давайте теперь построим наше дерево решений на основе данных, которые мы получили. Таким образом, мы разделили дерево решений на два уровня, первый основан на атрибуте «Погода», а второй ряд основан на «Влажности» и «Ветре». Изображения ниже иллюстрируют изученное дерево решений.

Мы также можем установить некоторые пороговые значения, если функции непрерывны.

Что такое энтропия в алгоритме дерева решений?

Проще говоря, энтропия - это мера того, насколько беспорядочными являются ваши данные. Хотя вы, возможно, слышали этот термин на уроках математики или физики, здесь то же самое.

Причина, по которой энтропия используется в дереве решений, заключается в том, что конечная цель в дереве решений состоит в том, чтобы сгруппировать подобные группы данных в одинаковые классы, т. Е. Привести в порядок данные.

Давайте посмотрим на изображение ниже, где у нас есть начальный набор данных, и мы обязаны применить алгоритм дерева решений, чтобы сгруппировать сходные точки данных в одну категорию.

Как мы видим, после разделения решений большинство красных кружков попадают под один класс, а большинство синих крестов - под другой класс. Следовательно, было принято решение классифицировать атрибуты, которые могли бы основываться на различных факторах.

Теперь давайте попробуем сделать кое-что здесь:

Допустим, у нас есть «N» наборов элементов, и эти элементы делятся на две категории, и теперь, чтобы сгруппировать данные на основе меток, мы вводим соотношение:

Энтропия нашего множества задается следующим уравнением:

Давайте посмотрим на график для данного уравнения:

Изображение выше (с p = 0, 5 и q = 0, 5)

преимущества

1. Дерево решений просто для понимания, и как только оно понято, мы можем его построить.

2. Мы можем реализовать дерево решений как для числовых, так и для категориальных данных.

3. Доказано, что дерево решений является надежной моделью с многообещающими результатами.

4. Они также экономят время с большими данными.

5. Это требует меньше усилий для обучения данных.

Недостатки

1. Нестабильность - только если информация является точной и точной, дерево решений даст многообещающие результаты Даже если во входных данных есть небольшое изменение, это может вызвать большие изменения в дереве.

2. Сложность. Если набор данных огромен с множеством столбцов и строк, очень сложно создать дерево решений с множеством ветвей.

3. Затраты. Иногда стоимость также остается основным фактором, потому что когда требуется построить сложное дерево решений, для этого требуются глубокие знания в области количественного и статистического анализа.

Вывод

В этой статье мы узнали об алгоритме дерева решений и о том, как его построить. Мы также увидели большую роль, которую играет энтропия в алгоритме дерева решений, и, наконец, мы увидели преимущества и недостатки дерева решений.

Рекомендуемые статьи

Это было руководство к алгоритму дерева решений. Здесь мы обсудили роль, которую играют энтропия, работа, преимущества и недостатки. Вы также можете просмотреть наши другие предлагаемые статьи, чтобы узнать больше -

  1. Важные методы добычи данных
  2. Что такое веб-приложение?
  3. Руководство к Что такое Data Science?
  4. Интервью с аналитиком данных
  5. Применение дерева решений в Data Mining