Разница между наукой о данных и добычей данных
Data Mining - это поиск тенденций в наборе данных. И используя эти тенденции для определения будущих моделей. Это важный шаг в процессе обнаружения знаний. Это часто включает анализ огромного количества исторических данных, которые ранее игнорировались. Наука о данных - это область исследований, которая включает в себя все, от аналитики больших данных, интеллектуального анализа данных, прогнозного моделирования, визуализации данных, математики и статистики. Наука о данных упоминается как четвертая парадигма науки. (другие три - теоретический, эмпирический и вычислительный). Academia часто проводит эксклюзивные исследования в области Data Science.
Историческая перспектива
Прежде чем мы перейдем к техническим описаниям, давайте посмотрим на эволюцию терминов. Историческое исследование прояснит, как эти термины используются в настоящее время.
- Слово «Наука о данных» появилось в 1960-х годах, но тогда оно использовалось в качестве альтернативы «Информатике». В настоящее время оно имеет совершенно иной смысл.
- В 2008 году DJ Patil и Джефф Хаммербахер стали первыми, кто назвал себя «Data Scientists», чтобы описать свою роль в LinkedIn и Facebook соответственно.
- В 2012 году в статье Harvard Business Review была названа Data Scientist как «Самая сексуальная работа 21 века».
- Термин Data Mining развивался параллельно. Он стал распространенным среди сообществ баз данных в 1990-х годах.
- Data Mining обязана своим происхождением KDD (обнаружению знаний в базах данных). KDD - это процесс поиска Знаний из информации, представленной в базах данных. А Data Mining является основным подпроцессом в KDD.
- Data Mining часто используется взаимозаменяемо вместе с KDD.
Хотя эти имена вошли в картину независимо друг от друга, они часто оказываются взаимодополняющими, поскольку, в конце концов, они тесно связаны с анализом данных.
Сравнение данных между Data Science и Data Mining (Инфографика)
Ниже приведено 9 лучших сравнений Data Science и Data Mining.
Пример использования
Рассмотрим сценарий, в котором вы являетесь крупным продавцом в Индии. У вас есть 50 магазинов, работающих в 10 крупных городах Индии, и вы работаете в течение 10 лет.
Допустим, вы хотите изучить данные последних 8 лет, чтобы узнать количество продаж сладостей в праздничные сезоны 3 городов. Если это ваша цель, я бы порекомендовал вам нанять человека с опытом в области Data Mining. Data Miner, вероятно, будет просматривать историческую информацию, хранящуюся в устаревших системах, и использовать алгоритмы для извлечения трендов.
Рассмотрим еще один случай, когда вы хотите узнать, какие сладости получили больше положительных отзывов. В этом случае ваши источники данных могут не ограничиваться базами данных, они могут распространяться на социальные сайты или сообщения обратной связи с клиентами. В этом случае я предлагаю вам нанять Data Scientist. Человек, работающий в качестве Data Scientist, больше подходит для применения алгоритмов и проведения этого социально-вычислительного анализа.
Ключевые различия между Data Science и Data Mining
Ниже приведены различия между наукой о данных и добычей данных:
- Data Mining - это деятельность, которая является частью более широкого процесса обнаружения знаний в базах данных (KDD), в то время как Data Science является областью исследования, как и прикладная математика или информатика.
- Часто Data Science рассматривается в широком смысле, в то время как Data Mining считается нишей.
- Некоторые действия в Data Mining, такие как статистический анализ, запись потоков данных и распознавание образов, могут пересекаться с Data Science. Следовательно, Data Mining становится подмножеством Data Science.
- Машинное обучение в Data Mining больше используется в распознавании образов, в то время как в Data Science оно имеет более общее применение.
Заметка
- Data Science и Data Mining не следует путать с Big Data Analytics, и над большими наборами данных могут работать как майнеры, так и ученые.
Data Science и Сравнительная таблица Data Mining
Основа для сравнения | Сбор данных | Наука о данных |
Что это? | Техника | Площадь |
фокус | Бизнес-процесс | Научные исследования |
Цель | Сделайте данные более полезными | Создание Data-ориентированных продуктов для организации |
Выход | Узоры | разнообразный |
Цель | Поиск тенденций, ранее неизвестных | Социальный анализ, построение прогностических моделей, выявление неизвестных фактов и многое другое |
Профессиональная перспектива | Кто-то со знанием навигации по данным и статистическим пониманием может провести анализ данных | Человек должен понимать машинное обучение, программирование, инфо-графические методы и обладать знанием предметной области, чтобы стать специалистом по данным. |
степень | Интеллектуальный анализ данных может быть подмножеством Data Science, поскольку операции Mining являются частью конвейера Data Science | Мультидисциплинарный - наука о данных состоит из визуализаций данных, вычислительных социальных наук, статистики, интеллектуального анализа данных, обработки естественного языка и т. Д. |
Имеет дело с (тип данных) | В основном структурированные | Все формы данных - структурированные, полуструктурированные и неструктурированные |
Другие менее популярные имена | Археология Данных, Сбор Информации, Обнаружение Информации, Извлечение Знаний | Наука, управляемая данными |
Вывод - Data Science против Data Mining
Итак, поехали! Я уверен, что теперь вы лучше понимаете, в чем заключаются ключевые различия между ними и в каком контексте их следует использовать. Следует помнить одну вещь: нет формальных и точных определений Data Science и Data Mining. В академических кругах и отрасли все еще ведутся дебаты относительно того, что является точным определением. Тем не менее, все находятся на одной странице в отношении различий высокого уровня и описания двух терминов, которые мы исследовали в этой статье.
Рекомендуемая статья
Это было руководство по Data Science против Data Mining, их значению, сравнению «голова к голове», ключевым различиям, сравнительной таблице и выводам. Вы также можете посмотреть следующие статьи, чтобы узнать больше -
- Наука о данных и ее растущее значение
- 7 важных методов добычи данных для достижения наилучших результатов
- Прогнозная аналитика против Data Science - узнайте 8 полезных сравнений
- 8 важных методов добычи данных для успешного бизнеса