Введение в ансамблевые методы в машинном обучении

В этой статье мы увидим схему методов ансамбля в машинном обучении. Ансамблевое обучение - это сочетание разнообразных методов машинного обучения в прогностической модели для улучшения прогнозирования. Ансамблевое обучение приобретается для уменьшения дисперсии в прогнозирующих данных. Этот тип обучения предназначен для минимизации предвзятости модели. Обучение ансамблем - это многомодельная система, в которой различные классификаторы или методы стратегически объединены для классификации или прогнозирования статистики по сложной проблеме с большей точностью. Целью такого обучения является минимизация вероятности неудачного выбора из модели. Это придает уверенность в решении, принятом моделью. Идея выбора оптимальных функций реализована в ансамблевом обучении.

Типы ансамблевых методов в машинном обучении

Методы ансамбля помогают создавать несколько моделей, а затем объединять их для получения улучшенных результатов, некоторые методы ансамбля подразделяются на следующие группы:

1. Последовательные методы

В этом методе Ensemble есть последовательно сгенерированные базовые обучающиеся, в которых находится зависимость от данных. Все остальные данные в базовом ученике имеют некоторую зависимость от предыдущих данных. Таким образом, предыдущие ошибочно помеченные данные настраиваются в зависимости от их веса, чтобы повысить производительность всей системы.

Пример : повышение

2. Параллельный метод

В этом методе Ensemble базовый учащийся генерируется в параллельном порядке, в котором отсутствует зависимость от данных. Каждые данные в базовом ученике генерируются независимо.

Пример : укладка

3. Гомогенный ансамбль

Такой метод ансамбля представляет собой комбинацию однотипных классификаторов. Но набор данных отличается для каждого классификатора. Это заставит комбинированную модель работать более точно после обобщения результатов каждой модели. Этот тип метода ансамбля работает с большим количеством наборов данных. В однородном методе метод выбора признаков одинаков для разных обучающих данных. Это вычислительно дорого.

Пример: популярные методы, такие как багинг и бустинг, входят в однородный ансамбль.

4. Гетерогенный ансамбль

Такой метод ансамбля представляет собой комбинацию различных типов классификаторов или моделей машинного обучения, в которых каждый классификатор основан на одних и тех же данных. Такой метод работает для небольших наборов данных. В гетерогенном метод выбора признаков отличается для одних и тех же обучающих данных. Общий результат этого метода ансамбля осуществляется путем усреднения всех результатов каждой комбинированной модели.

Пример : укладка

Техническая классификация ансамблевых методов

Ниже приведена техническая классификация методов ансамбля:

1. Упаковка

Этот метод ансамбля объединяет две модели машинного обучения, т.е. начальную загрузку и агрегацию, в одну модель ансамбля. Цель метода упаковки в мешки - уменьшить высокую дисперсию модели. Деревья решений имеют дисперсию и низкое смещение. Большой набор данных (скажем, 1000 выборок) подвергается дополнительной выборке (скажем, 10 выборок каждая несет в себе 100 выборок данных). Множество деревьев решений построены на каждой обучающей информации подвыборки. При одновременном подборе данных с отбором проб по разным деревьям решений уменьшается необходимость перебора данных обучения по каждому дереву решений. Для эффективности модели каждое отдельное дерево решений углубляется с использованием обучающих данных с выборочной выборкой. Результаты каждого дерева решений агрегируются, чтобы понять окончательный прогноз. Дисперсия агрегированных данных уменьшается. Точность прогнозирования модели в методе расфасовки зависит от количества используемых деревьев решений. Различные подвыборки выборочных данных выбираются случайным образом с заменой. Выход каждого дерева имеет высокую корреляцию.

2. Повышение

Усиливающий ансамбль также объединяет различные типы классификаторов. Повышение - это один из методов последовательного ансамбля, в котором каждая модель или классификатор работает на основе функций, которые будут использоваться следующей моделью. Таким образом, метод повышения отличает более сильную модель учащихся от слабых моделей учащихся путем усреднения их весов. Другими словами, более сильная обученная модель зависит от множества слабых обученных моделей. Слабый ученик или модель, обученная износу, - это модель, которая в меньшей степени коррелирует с истинной классификацией. Но следующий слабый ученик немного больше связан с истинной классификацией. Сочетание таких разных слабых учеников дает сильного ученика, который хорошо коррелирует с истинной классификацией.

3. Укладка

Этот метод также объединяет несколько классификаций или методов регрессии с использованием мета-классификатора или метамодели. Модели нижних уровней обучаются с полным набором обучающих данных, а затем комбинированная модель обучается с результатами моделей нижних уровней. В отличие от повышения, каждая модель более низкого уровня проходит параллельное обучение. Прогноз из моделей нижнего уровня используется в качестве входных данных для следующей модели в качестве набора обучающих данных и образует стек, в котором верхний слой модели более обучен, чем нижний слой модели. Модель верхнего уровня имеет хорошую точность прогнозирования, и они построены на основе моделей более низкого уровня. Стек продолжает расти до тех пор, пока не будет выполнено наилучшее прогнозирование с минимальной ошибкой. Прогноз комбинированной модели или метамодели основан на прогнозировании различных слабых моделей или моделей нижнего уровня. Основное внимание уделяется уменьшению смещения модели.

4. Случайный лес

Случайный лес немного отличается от мешков, поскольку в нем используются глубокие деревья, которые установлены на выборках при начальной загрузке. Выход каждого локона объединяется для уменьшения дисперсии. При выращивании каждого дерева вместо генерации образца начальной загрузки, основанного на наблюдениях в наборе данных, мы также выбираем набор данных на основе характеристик и используем только случайное подмножество такой выборки для построения дерева. Другими словами, выборка набора данных выполняется на основе особенностей, которые уменьшают корреляцию различных выходных данных. Случайный лес хорош для принятия решения об отсутствии данных. Случайный лес означает случайный выбор подмножества выборки, что снижает шансы получения связанных значений прогнозирования. Каждое дерево имеет разную структуру. Случайный лес приводит к незначительному увеличению смещения леса, но из-за усреднения всех менее связанных прогнозов для разных деревьев результирующая дисперсия уменьшается и дает в целом лучшую производительность.

Вывод

Мультимодельный подход ансамбля реализуется с помощью моделей глубокого обучения, в которых сложные данные изучаются и обрабатываются с помощью таких различных комбинаций классификатора, чтобы получить лучший прогноз или классификацию. Предсказание каждой модели в обучении ансамбля должно быть более некоррелированным. Это позволит сохранить предвзятость и дисперсию модели как можно ниже. Модель будет более эффективной и прогнозирует выход при минимальной ошибке. Ансамбль представляет собой контролируемый алгоритм обучения, так как модель предварительно обучается с использованием набора данных для прогнозирования. При обучении ансамблю количество классификаторов компонентов должно быть таким же, как и у меток классов, для достижения высокой точности.

Рекомендуемые статьи

Это руководство по ансамблевым методам в машинном обучении. Здесь мы обсуждаем Важные типы ансамблевых методов в машинном обучении вместе с Технической классификацией. Вы также можете просмотреть наши другие предлагаемые статьи, чтобы узнать больше -

  1. Введение в техники ансамбля
  2. Жизненный цикл машинного обучения с преимуществами
  3. Алгоритмы машинного обучения
  4. Топ 24 вопросов по машинному обучению