Разница между Маленькие данные и большие данные

Небольшие данные - это не что иное, как данные, которые являются достаточно маленькими для всего человека, а также для форматирования, что делает их доступными, информативными и действенными. Традиционная обработка данных не может иметь дело с большими или сложными данными, эти данные называются большими данными. Когда объем данных выходит за определенные пределы, традиционных систем и методологий недостаточно для обработки данных или преобразования данных в полезный формат. Вот почему данные обычно делятся на две категории: «Маленькие данные против больших данных».

Сравнение личных данных с большими данными на равных (Инфографика)

Ниже приведено 10 основных отличий между малыми и большими данными.

Ключевые различия между малыми данными и большими данными

  • Сбор данных - как правило, небольшие данные являются частью OLTP-систем и собираются более контролируемым образом, а затем вставляются в уровень кэширования или базу данных. Базы данных будут иметь реплики чтения для поддержки немедленных аналитических запросов, если это необходимо. Конвейер сбора больших данных будет иметь очереди типа AWS Kinesis или Google Pub / Sub для балансировки высокоскоростных данных. В нисходящем потоке будут потоковые конвейеры для аналитики в реальном времени и пакетные задания для холодной обработки данных.
  • Обработка данных. Как и большинство малых данных, генерируемых с помощью системы транзакций, аналитика в большинстве случаев будет ориентирована на пакетные процессы. В некоторых редких случаях аналитические запросы выполняются непосредственно поверх транзакционных систем. Среды больших данных будут иметь как конвейерную, так и потоковую обработку. Поток используется для аналитики в реальном времени, такой как обнаружение мошенничества с кредитными картами или прогнозирование цены акций. Пакетная обработка используется для реализации сложной бизнес-логики с данными и продвинутыми алгоритмами.
  • Масштабируемость. Системы малых данных обычно масштабируются вертикально. Вертикальное масштабирование увеличивает пропускную способность системы, добавляя больше ресурсов на одну и ту же машину. Вертикальное масштабирование является дорогостоящим, но менее сложным в управлении. Системы больших данных в основном зависят от горизонтально масштабируемой архитектуры, которая обеспечивает большую гибкость при меньших затратах. Преимущественные виртуальные машины, доступные в облаке, делают горизонтально масштабируемые системы еще более доступными.
  • Моделирование данных - небольшие данные, сгенерированные из транзакционных систем, будут иметь нормализованную форму. Конвейеры данных ETL (Extract Transform Load) преобразуют их в схему типа «звезда» или «снежинка» в хранилище данных. Здесь схема всегда применяется при записи данных, что относительно просто, поскольку данные более структурированы. Как упомянуто выше, табличные данные - только часть Больших Данных. Здесь данные реплицируются гораздо чаще по различным причинам, таким как передача обслуживания при сбое или из-за некоторых ограничений базового механизма базы данных (например, некоторые базы данных поддерживают только один вторичный индекс на набор данных). Схема не применяется при записи. Вместо этого схема проверяется при чтении данных.
  • Связь между хранилищами и вычислениями. В традиционных базах данных, которые в основном обрабатывают малые данные, хранилища и вычисления тесно связаны между собой. Вставка и извлечение данных в базу данных и из нее возможны только через данный интерфейс. Данные не могут быть помещены непосредственно в файловую систему базы данных, или существующие данные не могут быть запрошены с использованием других механизмов БД. На самом деле, эта архитектура очень помогает обеспечить целостность данных. Системы больших данных имеют очень слабую связь между хранением и вычислениями. Обычно данные хранятся в распределенной системе хранения данных, такой как HDFS, AWS S3 или Google GCS, и вычислительный механизм для запроса данных или выбора ETL позже. Например, интерактивные запросы могут выполняться с использованием Presto (Link) и ETL с использованием Apache Hive для одних и тех же данных.
  • Наука о данных. Алгоритмы машинного обучения требуют ввода данных в хорошо структурированном и правильно закодированном формате, и большую часть времени входные данные будут поступать из обеих транзакционных систем, таких как хранилище данных, и хранилища больших данных, таких как озеро данных. Алгоритмы машинного обучения, работающие исключительно на малых данных, будут простыми, поскольку этап подготовки данных узок. Подготовка и обогащение данных в среде больших данных занимает гораздо больше времени. Большие данные предоставляют множество возможностей для экспериментов с данными из-за большого объема и разнообразия данных.
  • Безопасность данных. Методы обеспечения безопасности для малых данных, которые находятся в корпоративных хранилищах данных или системах транзакций, предоставляемых соответствующими поставщиками баз данных, которые могут включать привилегии пользователей, шифрование данных, хеширование и т. Д. Защита систем больших данных намного сложнее и сложнее. Рекомендации по обеспечению безопасности включают шифрование данных в покое и при передаче, изоляцию кластерной сети, строгие правила контроля доступа и т. Д.

Сравнение малых данных и больших данных

Основа сравненияНебольшие данныеБольшое количество данных
ОпределениеДанные, которые «достаточно малы» для понимания человеком. В том объеме и формате, которые делают их доступными, информативными и действеннымиНаборы данных настолько большие или сложные, что традиционные приложения для обработки данных не могут с ними справиться
Источник данных● данные из традиционных корпоративных систем, таких как
○ Планирование корпоративных ресурсов
○ Управление взаимоотношениями с клиентами (CRM)
● финансовые данные, такие как данные главной книги
● данные платежной транзакции с веб-сайта
● Данные о покупке в точках продаж
● Данные о потоке кликов с веб-сайтов
● Данные потока GPS - данные мобильности, отправленные на сервер
● социальные сети - фейсбук, твиттер
объемБольшинство случаев в диапазоне десятков или сотен ГБ. В некоторых случаях мало ТБ (1 ТБ = 1000 ГБ)Более нескольких терабайт (ТБ)
Скорость (скорость, с которой появляются данные)● контролируемый и устойчивый поток данных
● накопление данных происходит медленно
● Данные могут поступать с очень высокой скоростью.
● Огромные данные могут накапливаться в течение очень коротких периодов времени
разнообразиеСтруктурированные данные в табличном формате с фиксированной схемой и полуструктурированные данные в формате JSON или XMLНаборы данных большого разнообразия, которые включают Табличные данные, Текстовые файлы, Изображения, Видео, Аудио, XML, JSON, Журналы, Данные датчика и т. Д.
Правдивость (Качество данных)Содержит меньше шума, так как данные собираются контролируемым образом.Обычно качество данных не гарантируется. Требуется тщательная проверка данных перед обработкой.
ЗначениеБизнес-аналитика, анализ и отчетностьКомплексный анализ данных для прогнозирования, рекомендаций, поиска шаблонов и т. Д.
Разница во времениИсторические данные в равной степени действительны, поскольку данные представляют собой надежные деловые взаимодействияВ некоторых случаях данные скоро устаревают (например, обнаружение мошенничества).
Расположение данныхБазы данных внутри предприятия, локальные серверы и т. Д.В основном в распределенных хранилищах в облаке или во внешних файловых системах.
инфраструктураПредсказуемое распределение ресурсов. В основном вертикально масштабируемое оборудованиеБолее гибкая инфраструктура с горизонтально масштабируемой архитектурой. Нагрузка на систему сильно варьируется.

Вывод - маленькие данные против больших данных

Конечная цель анализа данных, чтобы получить своевременную информацию для поддержки принятия решений. Распределение данных по категориям «Малый и Большой» помогает решать задачи анализа данных каждого мира отдельно с помощью соответствующих инструментов. Граница между двумя категориями меняется с появлением современных систем обработки данных, что делает запрос даже больших данных намного быстрее и менее сложным.

Рекомендуемые статьи:

Это было руководство по Малым Данным по сравнению с Большими Данными, их значению, Сравнению лицом к лицу, Основным различиям, Сравнительной таблице и Заключению. эта статья включает в себя все важные различия между малыми и большими данными. Вы также можете посмотреть следующие статьи, чтобы узнать больше -

  1. Большие данные против Data Science - чем они отличаются?
  2. Большие данные: важно слияния аналитики технологий и бизнеса
  3. 5 главных тенденций в области больших данных, которые придется освоить компаниям
  4. 16 интересных советов по превращению больших данных в большой успех