Алгоритмы глубокого обучения

Введение в алгоритмы глубокого обучения

Глубокое обучение - это шаг к сближению с искусственным интеллектом, который может принимать решения, подобные человеческому мозгу, т.е. иметь способность учиться методом проб и ошибок, как люди. Человеческий мозг содержит миллиарды нейронов (около 86 миллиардов; источник: Википедия). С искусственными нейронами глубокое обучение также помогает имитировать человеческий разум. Для обработки информации и принятия решения через искусственные нейронные сети существуют некоторые алгоритмы, называемые алгоритмами глубокого обучения. Алгоритмы учатся в каждом слое постепенно, т.е. дополнительная ценность добавлена от особенностей в следующем слое. Модель глубокого обучения может оказаться более подходящей, если данные небольшие, неполные или слишком простые. Алгоритмы глубокого обучения эффективны, когда объем данных велик.

Чтобы создать модель глубокого обучения, нужно написать несколько алгоритмов, смешать их вместе и создать сеть нейронов. Глубокое обучение имеет высокую вычислительную стоимость. Чтобы помочь моделям глубокого обучения, существуют платформы глубокого обучения, такие как Tensor flow, Py-Torch, Chainer, Keras и т. Д. В процессе глубокого обучения мы попытались воспроизвести нейронную сеть человека с помощью искусственной нейронной сети, человеческий нейрон называется персептроном в модель глубокого обучения. Мы соединяем эти блоки персептрона вместе, чтобы создать нейронную сеть, она имеет 3 раздела:

Входной слой
Скрытые слои
Выходной слой

Перцептрон имеет входные узлы (дендриты в человеческом мозге), функцию активации для принятия небольшого решения и выходные узлы (аксон в человеческом мозге). Мы увидим, как работает один персептрон, соединение их вместе создаст модель глубокого обучения. Входной информации (число входных переменных / признаков) присваивается некоторый вес и подается в функцию активации. Функция срабатывания принимает решение и отправляет вывод. Выход этого перцептрона будет введен в другие нейроны. После обработки партии ошибка обратного распространения вычисляется для каждого нейрона с помощью функции стоимости / кросс-энтропии. Таким образом, входные веса переназначаются, и весь процесс продолжается до тех пор, пока перекрестная энтропия не удовлетворяет условию.

У нас есть разные управляющие функции, такие как сигмоидальные функции, гиперболическая касательная функция, выпрямленная линейная единица (ReLU), для принятия небольшого решения. Модель глубокого обучения требует огромного количества данных для построения хорошей модели. Как правило, модель с более чем 3 скрытыми слоями рассматривается как глубокая нейронная сеть. По сути, глубокое обучение - это набор нейронов с рядом параметров, определенных для каждого слоя. Для создания модели глубокого обучения популярными архитектурами являются RNN, CNN и т. Д.

Архитектурные методы для алгоритмов глубокого обучения

Для построения этой архитектуры используются следующие алгоритмы:

1. Обратное распространение

В этом алгоритме мы вычисляем частные производные. В общем, метод градиентного спуска для оптимизации, производные (градиенты) рассчитываются на каждой итерации. В глубоком обучении функции не простые, они представляют собой совокупность различных функций. В этом случае трудно рассчитать градиенты, поэтому мы используем приближенное дифференцирование для вычисления производных. Чем больше число параметров, тем дороже будет приблизительное дифференцирование.

2. Стохастический градиентный спуск

Цель градиентного спуска - найти глобальные минимумы или оптимальное решение. Но чтобы получить это, мы должны рассмотреть локальные минимальные решения (не желательно) также. Если целевая функция является выпуклой, легко найти глобальные минимумы. Начальное значение для функции и скорость обучения являются определяющими параметрами для нахождения глобальных минимумов. Это легко понять, если учесть, что река берет начало с вершины горы и ищет предгорье (глобальные минимумы). Но в пути будут некоторые взлеты и падения (локальные минимумы), которых следует избегать. Точка и скорость начала реки (в нашем случае начальное значение и скорость обучения) являются решающими факторами для нахождения глобальных минимумов.

3. Скорость обучения

Скорость обучения похожа на скорость реки, она может сократить время тренировки и повысить производительность. В общем, чтобы изучить любую технику / спорт, в начале скорость обучения относительно высока, чем в конце, когда нужно овладеть ею. После промежуточного этапа обучение будет медленным, акцент будет сделан на тонкую настройку. То же самое применяется в глубоком обучении, слишком большие изменения решаются с помощью более высокой скорости обучения и медленного снижения скорости обучения позже для тонкой настройки.

4. Пакетная нормализация

При глубоком обучении начальное значение веса (выбирается случайным образом) и обучения определяется для мини-партии. В начале было бы много выбросов, и во время обратного распространения эти выбросы должны быть скомпенсированы для вычисления весов, чтобы получить выходные данные. Эта компенсация приводит к дополнительным эпохам. Поэтому, чтобы избежать этого, мы используем пакетную нормализацию.

5. Выпадать

При глубоком обучении мы обычно сталкиваемся с проблемой переоснащения. Перегрузка в больших сетях с несколькими параметрами затрудняет прогнозирование данных испытаний. Итак, чтобы избежать этого, мы используем метод отсева, который отбрасывает случайные единицы во время обучения, создавая различные «утонченные сети». При тестировании этих прореженных сетей прогнозы усредняются, что помогает избежать переобучения.

6. Мешок слов

Мы используем непрерывный пакет слов, чтобы предсказать следующее слово. Например, мы видим в электронном письме автоматическое предложение для завершения предложения, которое является частью НЛП. Это сделано, рассматривая много предложений и для определенного слова окружающие слова, которые захвачены. Эти конкретные слова и окружающие слова поступают в нейронную сеть. После обучения модели, он может предсказать конкретное слово на основе окружающих слов.

7. Долгосрочная кратковременная память

LSTM очень полезен в задачах прогнозирования последовательности, таких как языковой перевод, прогнозирование продаж и определение цены акций. LSTM имеет преимущество перед другими методами, потому что он способен учитывать предыдущие данные. LSTM осуществляет модификацию по механизму клеточных состояний. Он помнит, чтобы забыть вещи. Три основных аспекта LSTM выделяют его среди других методов глубокого обучения. Первый - когда у нейрона должен быть ввод, второй - когда нужно помнить предыдущие данные и что забыть, а третий - когда передавать данные.

Вывод

Модель глубокого обучения - это шаг к воспроизведению человеческого разума. Вместо биологических нейронов глубокое обучение использует искусственную нейронную сеть. Глубокое обучение сопряжено с высокими вычислительными затратами, которые могут быть уменьшены при использовании сред глубокого обучения, таких как Tensor flow, Py-Torch и т. Д. RNN, CNN являются архитектурными методами для моделей глубокого обучения. В этой статье рассматриваются различные алгоритмы глубокого обучения, которые используются в этих архитектурах.

Алгоритмы глубокого обучения - Топ 7 архитектурных методов для глубокого обучения

Содержание:

Введение в алгоритмы глубокого обучения