Создать дерево решений - Простые способы визуализации схемы дерева решений

Содержание:

Anonim

Введение в создание дерева решений

В связи с недавним быстрым ростом объема данных, генерируемых информационными системами, для обработки больших наборов данных существует доминирующая потребность в дереве решений для уменьшения сложности вычислений. Дерево решений можно считать наиболее важным подходом для представления классификаторов. Другими словами, мы можем сказать, что данные структурированы с использованием стратегии «разделяй и властвуй». чтобы узнать, мы только исследовали. Дерево решений структурировано как структура для точного определения значений и вероятности результатов решений для

м каждого уровня узла, помогая лицам, принимающим решения, выбирать правильные прогнозы среди различных несоответствующих данных. В этой статье вы узнаете, как простым способом создать дерево решений на основе примеров данных.

Что такое дерево решений?

Дерево решений - это двоичная иерархическая структура, которая определяет способ, которым каждый узел разделяет набор данных на основе различных условий. Построить оптимальное дерево с модельным подходом для классификации переменной ответа, которая прогнозирует значение целевой переменной с помощью простых правил принятия решений (операторов if-then-else). Подход, основанный на контроле обучения, в основном используется в задачах классификации и считается очень эффективной прогностической моделью. Они используются в различных прикладных областях, таких как теория игр, искусственный интеллект, машинное обучение, интеллектуальный анализ данных и в таких областях, как безопасность и медицина.

Как создать дерево решений?

Дерево решений создается простыми способами с нисходящим способом; они состоят из узлов, которые образуют направленный узел, у которого есть корневые узлы без входящих ребер, все остальные узлы называются узлами принятия решений (внутренние узлы и конечные узлы, которые соответствуют меткам атрибута и класса) с по крайней мере одним входящим ребром. Основная цель наборов данных - минимизировать ошибки обобщения путем нахождения оптимального решения в дереве решений.

Пример дерева решений поясняется ниже с помощью примера набора данных. Цель состоит в том, чтобы предсказать, будет ли прибыль снижаться или повышаться, используя атрибуты жизни и конкуренции. Здесь переменные дерева решений являются категориальными (да, нет).

Набор данных

жизнь Конкуренция Тип прибыль
старый да Програмное обеспечение вниз
старый нет Програмное обеспечение вниз
старый нет аппаратные средства вниз
средний да Програмное обеспечение вниз
средний да аппаратные средства вниз
средний нет аппаратные средства вверх
средний нет Програмное обеспечение вверх
новый да Програмное обеспечение вверх
новый нет аппаратные средства вверх
новый нет Програмное обеспечение вверх

Из вышеприведенного набора данных: жизнь, конкуренция, тип являются предикторами, а атрибуты прибыли являются целью. Существуют различные алгоритмы для реализации дерева решений, но лучший алгоритм, используемый для построения дерева решений, - это ID3, который делает упор на жадный поиск. Дерево решений следует правилу вывода решений или дизъюнктивной нормальной форме (^).

Древо решений

Первоначально все атрибуты обучения считаются корневыми. Приоритет порядка размещения атрибутов в качестве корневого пользователя выполняется с помощью следующего подхода. Этот процесс известен как выбор атрибута, чтобы определить, какой атрибут сделан корневым узлом на каждом уровне. Дерево следует за двумя шагами: построение дерева, обрезка дерева. И данные были разделены на все узлы принятия решений.

Получение информации

Это мера изменения энтропии на основе независимой переменной. Дерево решений должно найти наибольшую выгоду информации.

Энтропия

Энтропия определяется как для конечного набора, меры случайности в данных или предсказуемости события, если выборка имеет схожие значения, то энтропия равна нулю, а если она делится поровну на выборку, то она равна единице.

Энтропия для класса

Где р - вероятность получения прибыли, чтобы сказать «да», а N - убыток, сказать «нет».

следовательно, энтропия = 1

После вычисления значения энтропии необходимо определить корневой узел из атрибута.

Энтропия возраста

В соответствии с набором данных для атрибута Life у нас есть старый = 3 вниз, средний = 2 вниз и один вверх относительно метки прибыли.

жизнь число Пи п I (р, п)
старый 0 3 0
средний 2 2 1
новый 3 0 0

Прибыль = Энтропия класса - Энтропия жизни = 1 - 0, 4 = 0, 6

Энтропия (конкуренция) = 0, 87

Конкуренция число Пи п I (р, п)
да 1 3 0.8
нет 4 2 0.9

Прибыль = энтропия класса - энтропия жизни = 1 - 0, 87 = 0, 12

Теперь проблема возникает в атрибуте Life, где середина имеет равную вероятность как вверх, так и вниз. следовательно, энтропия равна 1. Аналогично, она снова рассчитывается для атрибута типа, энтропия равна 1, а коэффициент усиления равен 0. Теперь было принято полное решение, чтобы получить точный результат для среднего значения.

Преимущества дерева решений

  • Их легко понять, а сгенерированные правила являются гибкими. Имеет мало усилий для подготовки данных.
  • Визуальный подход для представления решений и результатов очень полезен.
  • Дерево решений обрабатывает набор обучающих данных с ошибками и пропущенными значениями.
  • Они могут обрабатывать дискретное значение и числовой атрибут. Работает категориальные и непрерывные переменные для ввода и вывода.
  • Они являются полезным инструментом для бизнес-сферы, которая должна принимать решения после анализа при определенных условиях.

Недостатки дерева решений

  • Учащиеся могут создать сложное дерево решений в зависимости от обученных данных. этот процесс называется переоснащением, сложным процессом в моделях дерева решений.
  • Предпочтительные значения являются категориальными, если оно непрерывно, дерево решений теряет информацию, что приводит к склонности к ошибкам. Экспоненциальный расчет роста выше при анализе.
  • Многие метки классов приводят к неправильным сложным вычислениям и дают низкую точность прогнозирования набора данных.
  • Информация, полученная в алгоритме DT, дает необъективный отклик на категорически более высокие значения.

Вывод

Поэтому, в заключение, деревья решений обеспечивают практический и простой метод обучения и широко известны как эффективные инструменты для машинного обучения, так как за короткое время они хорошо работают с большими наборами данных. Это учебная задача, которая использует статистический подход, чтобы сделать обобщенный вывод. Теперь стало понятнее, почему дерево решений используется в прогнозном моделировании, а для специалистов по данным они являются мощным инструментом.

Рекомендуемые статьи

Это руководство по созданию дерева решений. Здесь мы обсудим, как создать дерево решений, а также различные преимущества и недостатки. Вы также можете просмотреть наши другие предлагаемые статьи, чтобы узнать больше -

  1. Обзор дерева решений в R
  2. Что такое алгоритм дерева решений?
  3. Введение в инструменты искусственного интеллекта
  4. Топ 10 вопросов по искусственному интеллекту Интервью