Разница между наукой о данных и добычей данных

Data Mining - это поиск тенденций в наборе данных. И используя эти тенденции для определения будущих моделей. Это важный шаг в процессе обнаружения знаний. Это часто включает анализ огромного количества исторических данных, которые ранее игнорировались. Наука о данных - это область исследований, которая включает в себя все, от аналитики больших данных, интеллектуального анализа данных, прогнозного моделирования, визуализации данных, математики и статистики. Наука о данных упоминается как четвертая парадигма науки. (другие три - теоретический, эмпирический и вычислительный). Academia часто проводит эксклюзивные исследования в области Data Science.

Историческая перспектива

Прежде чем мы перейдем к техническим описаниям, давайте посмотрим на эволюцию терминов. Историческое исследование прояснит, как эти термины используются в настоящее время.

  • Слово «Наука о данных» появилось в 1960-х годах, но тогда оно использовалось в качестве альтернативы «Информатике». В настоящее время оно имеет совершенно иной смысл.
  • В 2008 году DJ Patil и Джефф Хаммербахер стали первыми, кто назвал себя «Data Scientists», чтобы описать свою роль в LinkedIn и Facebook соответственно.
  • В 2012 году в статье Harvard Business Review была названа Data Scientist как «Самая сексуальная работа 21 века».
  • Термин Data Mining развивался параллельно. Он стал распространенным среди сообществ баз данных в 1990-х годах.
  • Data Mining обязана своим происхождением KDD (обнаружению знаний в базах данных). KDD - это процесс поиска Знаний из информации, представленной в базах данных. А Data Mining является основным подпроцессом в KDD.
  • Data Mining часто используется взаимозаменяемо вместе с KDD.

Хотя эти имена вошли в картину независимо друг от друга, они часто оказываются взаимодополняющими, поскольку, в конце концов, они тесно связаны с анализом данных.

Сравнение данных между Data Science и Data Mining (Инфографика)

Ниже приведено 9 лучших сравнений Data Science и Data Mining.

Пример использования

Рассмотрим сценарий, в котором вы являетесь крупным продавцом в Индии. У вас есть 50 магазинов, работающих в 10 крупных городах Индии, и вы работаете в течение 10 лет.

Допустим, вы хотите изучить данные последних 8 лет, чтобы узнать количество продаж сладостей в праздничные сезоны 3 городов. Если это ваша цель, я бы порекомендовал вам нанять человека с опытом в области Data Mining. Data Miner, вероятно, будет просматривать историческую информацию, хранящуюся в устаревших системах, и использовать алгоритмы для извлечения трендов.

Рассмотрим еще один случай, когда вы хотите узнать, какие сладости получили больше положительных отзывов. В этом случае ваши источники данных могут не ограничиваться базами данных, они могут распространяться на социальные сайты или сообщения обратной связи с клиентами. В этом случае я предлагаю вам нанять Data Scientist. Человек, работающий в качестве Data Scientist, больше подходит для применения алгоритмов и проведения этого социально-вычислительного анализа.

Ключевые различия между Data Science и Data Mining

Ниже приведены различия между наукой о данных и добычей данных:

  • Data Mining - это деятельность, которая является частью более широкого процесса обнаружения знаний в базах данных (KDD), в то время как Data Science является областью исследования, как и прикладная математика или информатика.
  • Часто Data Science рассматривается в широком смысле, в то время как Data Mining считается нишей.
  • Некоторые действия в Data Mining, такие как статистический анализ, запись потоков данных и распознавание образов, могут пересекаться с Data Science. Следовательно, Data Mining становится подмножеством Data Science.
  • Машинное обучение в Data Mining больше используется в распознавании образов, в то время как в Data Science оно имеет более общее применение.

Заметка

  • Data Science и Data Mining не следует путать с Big Data Analytics, и над большими наборами данных могут работать как майнеры, так и ученые.

Data Science и Сравнительная таблица Data Mining

Основа для сравненияСбор данныхНаука о данных
Что это?ТехникаПлощадь
фокусБизнес-процессНаучные исследования
ЦельСделайте данные более полезнымиСоздание Data-ориентированных продуктов для организации
ВыходУзорыразнообразный
ЦельПоиск тенденций, ранее неизвестныхСоциальный анализ, построение прогностических моделей, выявление неизвестных фактов и многое другое
Профессиональная перспективаКто-то со знанием навигации по данным и статистическим пониманием может провести анализ данныхЧеловек должен понимать машинное обучение, программирование, инфо-графические методы и обладать знанием предметной области, чтобы стать специалистом по данным.
степеньИнтеллектуальный анализ данных может быть подмножеством Data Science, поскольку операции Mining являются частью конвейера Data ScienceМультидисциплинарный - наука о данных состоит из визуализаций данных, вычислительных социальных наук, статистики, интеллектуального анализа данных, обработки естественного языка и т. Д.
Имеет дело с (тип данных)В основном структурированныеВсе формы данных - структурированные, полуструктурированные и неструктурированные
Другие менее популярные именаАрхеология Данных, Сбор Информации, Обнаружение Информации, Извлечение ЗнанийНаука, управляемая данными

Вывод - Data Science против Data Mining

Итак, поехали! Я уверен, что теперь вы лучше понимаете, в чем заключаются ключевые различия между ними и в каком контексте их следует использовать. Следует помнить одну вещь: нет формальных и точных определений Data Science и Data Mining. В академических кругах и отрасли все еще ведутся дебаты относительно того, что является точным определением. Тем не менее, все находятся на одной странице в отношении различий высокого уровня и описания двух терминов, которые мы исследовали в этой статье.

Рекомендуемая статья

Это было руководство по Data Science против Data Mining, их значению, сравнению «голова к голове», ключевым различиям, сравнительной таблице и выводам. Вы также можете посмотреть следующие статьи, чтобы узнать больше -

  1. Наука о данных и ее растущее значение
  2. 7 важных методов добычи данных для достижения наилучших результатов
  3. Прогнозная аналитика против Data Science - узнайте 8 полезных сравнений
  4. 8 важных методов добычи данных для успешного бизнеса