Алгоритм повышения градиента - Полное руководство по повышению градиента

Содержание:

Anonim

Введение в алгоритм повышения градиента

Техника превращения недельных учеников в сильного ученика называется Повышением. Алгоритм повышения градиента работает на этой теории исполнения. Алгоритм повышения Ada может быть изображен, чтобы объяснить и легко понять процесс, посредством которого повышение вводится в наборы данных.

Древо решений

Дерево решений - это инструмент поддержки вердиктов, который определяет решения, подразумевая древовидную структуру и их вероятные последствия, а также возможные исходы событий, затраты ресурсов и т. Д. Этот метод позволяет им отображать контрольные операторы, которые работают с условными результатами.

Исследовательские операции широко используют эти деревья решений специально для анализа решений. Это также позволяет им достигать цели и является инструментом, которым восхищаются в машинном обучении.

Алгоритм AdaBoost

Алгоритм AdaBoost начинается с подготовки дерева решений, в котором каждому наблюдению присваивается эквивалентный вес. После оценки первичного дерева мы повышаем вес той интерпретации, которую сложно классифицировать, и подчиняем весы тем, которые легко классифицировать. В результате на основе этих предвзятых данных разработано второе дерево. Здесь цель состоит в том, чтобы лучше понять пророчество первичного дерева.

Затем рассчитайте погрешность категоризации из этой инновационной модели сбора из 2-х деревьев и вырастите третье дерево, чтобы предвидеть измененные невязки. Вышеуказанная процедура повторяется в нескольких случаях. Наблюдения, которые недостаточно четко определены в предыдущих деревьях, определяются с использованием последующих деревьев. Предсказания модели заключительной сборки, следовательно, являются предубежденной фигурой предсказаний, заканчивающихся более ранними моделями дерева.

Тренировочная модель GBM

Чтобы указать модель gbm на языке R, должна быть установлена ​​библиотека GBM и создан вызов этой установленной библиотеки GBM из вызывающей программы. Также необходимо указать необходимые аргументы, ключевые аргументы перечислены ниже,

1. Формула

2. Распределение переменных ответа

3. Предикторная переменная

4. Переменная ответа

Обычные распределения, используемые в моделях GBM: Бернулли, Пуассон и т. Д.

Наконец, ожидается, что данные и аргументы n.trees будут определены. По умолчанию модель gbm будет принимать как должное 100 деревьев, что может быть хорошим приближением к концерту нашего gbm.

Пример кода № 1

install.packages ("gbm")
library(gbm)
GBM <- gbm( formula = response,
distribution = " bernoulli ",
data = train
n.trees = 3000)

Вот следующий шаг, на котором фактический набор данных делится на разделение на обучающий и тестовый наборы данных, и это достигается с помощью функции createDataPartition (). Этот вид разделения будет очень полезен в более поздней части для обучения тестового набора, используя обученный набор поездов, и в верхней части которого определяются фактические прогнозы для исходных данных.

Образец кода № 2

TRAIN <- read.csv("Train_dd.csv")
set.seed(77820)
intrain <- createDataPartition( y = Train$survived,
list = false )
Train <- Train(inTrain) Train <- Train(-inTrain)

Следующий шаг - тренировать модель gbm с помощью нашего тренинга. Пока все дополнительные аргументы точно соответствуют тому, что было сообщено в приведенных выше разделах. Упоминаются еще два дополнительных аргумента: взаимодействие, глубина и усадка.

1. Взаимодействие Глубина излагает максимальную глубину каждого дерева

2. Измерение интеллекта достигается с помощью усадки. здесь все дополнительные значения в базовых деревьях учеников уменьшаются с помощью этой усадки.

Кроме того, этот метод позволяет отображать контрольные операторы, которые работают на условных результатах. Исследовательские операции широко используют эти деревья решений специально для анализа решений. Это также позволяет нам достигать цели и является инструментом, которым восхищаются в машинном обучении.

Выход модели GBM

Выходные данные модели GBM содержат сведения об общем количестве деревьев, подразумеваемых для выполнения. Это поможет предсказать влияние переменной-предиктора в модели, а также таблицу значимости переменной и график модели можно получить из сводной функции выходных данных GBM.

Метод Predict () с использованием модели GBM

Таким образом, чтобы делать прогнозы на основе ключевых данных, представленных здесь, в модели GBM, как и в других моделях, подразумевается метод прогнозирования. Кроме того, счетчик общего количества используемых деревьев решений должен быть вручную указан в разделе аргументов метода.

Образец кода

predictions <- predict( object = simpleGBMmodel,
newdata = test,
n.trees = 1)

Улучшения модели GBM

Ограничения дерева

  • Важно, что слабые ученики обладают навыками, но остаются слабыми.

Взвешенные обновления

  • Последовательное сложение применяется из прогнозов каждого дерева
  • Пожертвование каждого дерева на это количество должно быть массовым, чтобы замедлить алгоритм обучения. этот процесс называется сжатием вызовов.

Стохастический алгоритм повышения градиента

Эту эквивалентную прибыль можно использовать для уменьшения ассоциации между деревьями.

Алгоритм повышения наказания за градиент

Параметризованные деревья могут быть заполнены дополнительными ограничениями, классическое дерево решений не может быть использовано в качестве слабых учеников. Вместо этого используется настроенное дерево, называемое деревом регрессии, которое имеет числовые значения в конечных узлах.

Рекомендуемые статьи

Это было руководство к алгоритму повышения градиента. Здесь мы обсуждаем введение, Дерево решений, Алгоритм AdaBoost, Модель обучения GBM, Улучшения модели GBM вместе с некоторыми примерами кода. Вы также можете просмотреть наши другие предлагаемые статьи, чтобы узнать больше -
  1. Алгоритм дерева решений
  2. Алгоритмы машинного обучения
  3. Алгоритм XGBoost
  4. Алгоритмы Науки Данных
  5. С ++ Алгоритм | Примеры алгоритма C ++
  6. Реализация пуассоновской регрессии в R