Разница между наукой о данных и машинным обучением
Наука о данных - это эволюционное расширение статистики, способное справляться с огромными объемами с помощью компьютерных технологий. Машинное обучение - это область обучения, которая дает компьютерам возможность учиться без явного программирования. Наука о данных охватывает широкий спектр технологий передачи данных, включая SQL, Python, R и Hadoop, Spark и т. Д. Машинное обучение рассматривается как процесс, его можно определить как процесс, с помощью которого компьютер может работать более точно, собирая и учится на данных, которые он дал.
Сравнение данных науки с машинным обучением (Инфографика)
Ниже приведены 5 лучших сравнений Data Science и Machine Learning.
Ключевая разница между наукой о данных и машинным обучением
Ниже представлены различия между наукой о данных и машинным обучением.
- Компоненты. Как упоминалось ранее, системы Data Science охватывают весь жизненный цикл данных и, как правило, имеют компоненты, охватывающие следующее:
- Сбор и профилирование данных - конвейеры ETL (Extract Transform Load) и профилирование
- Распределенные вычисления. Горизонтально масштабируемое распределение и обработка данных
- Автоматизированный интеллект - Автоматизированные модели ML для онлайн-ответов (прогноз, рекомендации) и обнаружения мошенничества.
- Визуализация данных - визуально исследуйте данные, чтобы лучше понять данные. Неотъемлемая часть моделирования ML.
- Панели мониторинга и бизнес-аналитика - Предопределенные панели мониторинга с возможностью слайсов и кубиков для заинтересованных сторон более высокого уровня.
- Инженерия данных - Обеспечение доступности горячих и холодных данных. Охватывает резервное копирование данных, безопасность, аварийное восстановление
- Развертывание в режиме производства - Миграция системы в производство с использованием стандартных отраслевых практик.
- Автоматизированные решения - это включает выполнение бизнес-логики поверх данных или сложную математическую модель, обученную с использованием любого алгоритма ML.
Моделирование машинного обучения начинается с того, что данные существуют, и типичные компоненты следующие:
- Поймите проблему - Убедитесь, что эффективным способом решения проблемы является ML. Обратите внимание, что не все проблемы решаются с помощью ML.
- Исследуйте данные - чтобы получить представление о возможностях, которые будут использоваться в модели ML. Для этого может потребоваться более одной итерации. Визуализация данных играет здесь важную роль.
- Подготовка данных - это важный этап, который оказывает большое влияние на точность модели ML. Он имеет дело с проблемой данных, например, что делать с отсутствующими данными для функции? Замените на фиктивное значение, например, ноль, или на среднее значение других значений, или удалите элемент из модели? Функции масштабирования, которые гарантируют, что значения всех объектов находятся в одном и том же диапазоне, являются критическими для многих моделей ML. Многие другие методы, такие как генерация полиномиальных элементов, также используются здесь для получения новых функций.
- Выберите модель и поезд. Модель выбирается на основе типа проблемы (прогнозирование или классификация и т. Д.) И типа набора функций (некоторые алгоритмы работают с небольшим количеством экземпляров с большим количеством признаков, а другие - в других случаях).,
- Показатель производительности - в Data Science показатели производительности не стандартизированы, они будут меняться от случая к случаю. Как правило, это будет показатель своевременности данных, качества данных, возможностей запросов, ограничений параллелизма в доступе к данным, возможностей интерактивной визуализации и т. Д.
В моделях ML показатели производительности предельно ясны. Каждый алгоритм будет иметь показатель, показывающий, насколько хорошо или плохо модель описывает данные обучения. Например, RME (среднеквадратическая ошибка) используется в линейной регрессии в качестве индикатора ошибка в модели.
- Методология разработки. Проекты Data Science выровнены в большей степени как инженерный проект с четко определенными вехами. Но проекты ML более похожи на исследования, которые начинаются с гипотезы и пытаются ее подтвердить с помощью имеющихся данных.
- Визуализация - визуализация в целом. Наука о данных представляет данные непосредственно с использованием любых популярных графиков, таких как столбики, круговые диаграммы и т. Д. Но в ML также используется визуализация, представляющая математическую модель обучающих данных. Например, визуализация путаницы в мультиклассовой классификации помогает быстро идентифицировать ложные данные. позитивы и негативы.
- Языки - SQL и SQL, подобные синтаксическим языкам (HiveQL, Spark SQL и т. Д.), Являются наиболее используемым языком в мире наук о данных. Используются также популярные языки сценариев обработки данных, такие как Perl, awk, sed. Другие хорошо поддерживаемые языки для фреймворка широко используемая категория (Java для Hadoop, Scala для Spark и т. д.).
Python и R являются наиболее используемым языком в мире машинного обучения. В настоящее время Python набирает обороты, поскольку новые исследователи с углубленным изучением в основном преобразуются в python.SQL также играет важную роль на этапе исследования данных ML
Сравнение данных по науке и машинному обучению
Основа сравнения | Наука о данных | Машинное обучение |
Сфера | Создайте понимание из данных, касающихся всех реальных сложностей. Это включает в себя такие задачи, как понимание требований, извлечение данных и т. Д. | Точно классифицируйте или прогнозируйте результат для новой точки данных, изучая шаблоны из исторических данных, используя математические модели. |
Входные данные | Большая часть входных данных генерируется как данные, потребляемые человеком, которые должны быть прочитаны или проанализированы людьми, такими как табличные данные или изображения. | Входные данные для ML будут преобразованы специально для используемых алгоритмов. Масштабирование объектов, встраивание Word или добавление полиномиальных функций - вот некоторые примеры |
Сложность системы | ● Компоненты для обработки неструктурированных необработанных данных.
● Много движущихся компонентов, обычно запланированных на уровне оркестровки для синхронизации независимых заданий | ● Основная сложность связана с алгоритмами и математическими концепциями
● Модели ансамбля будут иметь более одной модели ML, и каждая будет иметь взвешенный вклад в конечный результат |
Предпочтительный набор навыков | ● экспертиза предметной области
● ETL и профилирование данных ● сильный SQL ● системы NoSQL ● Стандартная отчетность / визуализация | ● сильное понимание математики
● Python / R программирование ● Обработка данных с помощью SQL ● специфичная для модели визуализация |
Спецификация оборудования | ● Горизонтально масштабируемые системы предпочитают обрабатывать большие объемы данных.
● Высокие значения RAm и твердотельные накопители, используемые для преодоления узких мест ввода-вывода | ● GPU предпочтительнее для интенсивных векторных операций
● В разработке находятся более мощные версии, такие как TPU (ссылка) |
Вывод - Data Science против машинного обучения
Как в науке о данных, так и в машинном обучении мы стараемся извлекать информацию и информацию из данных. Машинное обучение пытается заставить алгоритмы учиться самостоятельно. В настоящее время в Data Science применяются усовершенствованные модели ML для автоматического обнаружения и профилирования данных. Лучшим примером этого является Google Dataprep Cloud.
Рекомендуемая статья:
Это было руководство по Data Science против машинного обучения, их значению, сравнению «голова к голове», ключевым различиям, сравнительной таблице и выводам. Вы также можете посмотреть следующие статьи, чтобы узнать больше -
- Интервью с разработчиком Hadoop
- Большие данные против Data Science - чем они отличаются?
- Наука о данных и ее растущее значение
- Статистика против машинного обучения - различия между
- Как взломать интервью с разработчиком Hadoop?