Введение в алгоритм дерева решений
Когда у нас возникает проблема, которая решает проблему классификации или регрессии, алгоритм дерева решений является одним из самых популярных алгоритмов, используемых для построения моделей классификации и регрессии. Они подпадают под категорию контролируемого обучения, то есть данных, которые помечены.
Что такое алгоритм дерева решений?
Алгоритм дерева решений - это контролируемый алгоритм машинного обучения, в котором данные непрерывно делятся в каждой строке на основе определенных правил до получения окончательного результата. Давайте рассмотрим пример. Предположим, вы открываете торговый центр и, конечно, хотите, чтобы он со временем развивался в бизнесе. Таким образом, в этом случае вам потребуется постоянных клиентов, а также новых клиентов в вашем торговом центре. Для этого вы должны подготовить различные бизнес и маркетинговые стратегии, такие как отправка электронных писем потенциальным клиентам; создавать предложения и сделки, ориентируясь на новых клиентов и т. д. Но как мы узнаем, кто является потенциальными клиентами? Другими словами, как мы классифицируем категорию покупателей? Как некоторые клиенты будут посещать один раз в неделю, а другие хотели бы посетить один или два раза в месяц, или некоторые будут посещать в четверть. Таким образом, деревья решений являются одним из таких алгоритмов классификации, которые будут классифицировать результаты по группам, пока не останется больше сходства.
Таким образом, дерево решений спускается в древовидном формате. Основными компонентами дерева решений являются:
- Узлы принятия решений, где данные разделяются или, скажем, это место для атрибута.
- Решение Ссылка, которая представляет собой правило.
- Решение Листья, которые являются окончательными результатами.
Работа алгоритма дерева решений
Есть много шагов, которые участвуют в работе дерева решений:
1. Разделение - это процесс разделения данных на подмножества. Расщепление может быть сделано по различным факторам, как показано ниже, то есть по признаку пола, роста или по классу.
2. Обрезка - это процесс сокращения ветвей дерева решений, следовательно, ограничения глубины дерева
Обрезка также бывает двух видов:
- Предварительная обрезка - здесь мы прекращаем выращивать дерево, когда не находим какой-либо статистически значимой связи между атрибутами и классом в каком-либо конкретном узле.
- Post-Pruning - Для того, чтобы выполнить post-prune, мы должны проверить производительность модели тестового набора, а затем обрезать ветви, которые являются результатом чрезмерного шума из тренировочного набора.
3. Выбор дерева - Третий шаг - это процесс поиска наименьшего дерева, которое соответствует данным.
Примеры и иллюстрация построения дерева решений
Теперь, когда мы узнали принципы дерева решений. Давайте разберемся и проиллюстрируем это на примере.
Допустим, вы хотите играть в крикет в определенный день (например, в субботу). Какие факторы участвуют, которые решат, произойдет ли игра или нет?
Ясно, что основным фактором является климат, и ни у одного другого фактора нет такой большой вероятности, как у климата для прерывания игры.
Мы собрали данные за последние 10 дней, которые представлены ниже:
День | Погода | температура | влажность | ветер | Играть в? |
1 | облачный | Горячий | Высоко | слабый | да |
2 | Солнечный | Горячий | Высоко | слабый | нет |
3 | Солнечный | мягкий | Обычный | сильный | да |
4 | дождливый | мягкий | Высоко | сильный | нет |
5 | облачный | мягкий | Высоко | сильный | да |
6 | дождливый | здорово | Обычный | сильный | нет |
7 | дождливый | мягкий | Высоко | слабый | да |
8 | Солнечный | Горячий | Высоко | сильный | нет |
9 | облачный | Горячий | Обычный | слабый | да |
10 | дождливый | мягкий | Высоко | сильный | нет |
Давайте теперь построим наше дерево решений на основе данных, которые мы получили. Таким образом, мы разделили дерево решений на два уровня, первый основан на атрибуте «Погода», а второй ряд основан на «Влажности» и «Ветре». Изображения ниже иллюстрируют изученное дерево решений.
Мы также можем установить некоторые пороговые значения, если функции непрерывны.
Что такое энтропия в алгоритме дерева решений?
Проще говоря, энтропия - это мера того, насколько беспорядочными являются ваши данные. Хотя вы, возможно, слышали этот термин на уроках математики или физики, здесь то же самое.
Причина, по которой энтропия используется в дереве решений, заключается в том, что конечная цель в дереве решений состоит в том, чтобы сгруппировать подобные группы данных в одинаковые классы, т. Е. Привести в порядок данные.
Давайте посмотрим на изображение ниже, где у нас есть начальный набор данных, и мы обязаны применить алгоритм дерева решений, чтобы сгруппировать сходные точки данных в одну категорию.
Как мы видим, после разделения решений большинство красных кружков попадают под один класс, а большинство синих крестов - под другой класс. Следовательно, было принято решение классифицировать атрибуты, которые могли бы основываться на различных факторах.
Теперь давайте попробуем сделать кое-что здесь:
Допустим, у нас есть «N» наборов элементов, и эти элементы делятся на две категории, и теперь, чтобы сгруппировать данные на основе меток, мы вводим соотношение:
Энтропия нашего множества задается следующим уравнением:
Давайте посмотрим на график для данного уравнения:
Изображение выше (с p = 0, 5 и q = 0, 5)
преимущества
1. Дерево решений просто для понимания, и как только оно понято, мы можем его построить.
2. Мы можем реализовать дерево решений как для числовых, так и для категориальных данных.
3. Доказано, что дерево решений является надежной моделью с многообещающими результатами.
4. Они также экономят время с большими данными.
5. Это требует меньше усилий для обучения данных.
Недостатки
1. Нестабильность - только если информация является точной и точной, дерево решений даст многообещающие результаты Даже если во входных данных есть небольшое изменение, это может вызвать большие изменения в дереве.
2. Сложность. Если набор данных огромен с множеством столбцов и строк, очень сложно создать дерево решений с множеством ветвей.
3. Затраты. Иногда стоимость также остается основным фактором, потому что когда требуется построить сложное дерево решений, для этого требуются глубокие знания в области количественного и статистического анализа.
Вывод
В этой статье мы узнали об алгоритме дерева решений и о том, как его построить. Мы также увидели большую роль, которую играет энтропия в алгоритме дерева решений, и, наконец, мы увидели преимущества и недостатки дерева решений.
Рекомендуемые статьи
Это было руководство к алгоритму дерева решений. Здесь мы обсудили роль, которую играют энтропия, работа, преимущества и недостатки. Вы также можете просмотреть наши другие предлагаемые статьи, чтобы узнать больше -
- Важные методы добычи данных
- Что такое веб-приложение?
- Руководство к Что такое Data Science?
- Интервью с аналитиком данных
- Применение дерева решений в Data Mining