Узнайте 10 различий между маленькими данными и большими данными

Разница между Маленькие данные и большие данные

Небольшие данные - это не что иное, как данные, которые являются достаточно маленькими для всего человека, а также для форматирования, что делает их доступными, информативными и действенными. Традиционная обработка данных не может иметь дело с большими или сложными данными, эти данные называются большими данными. Когда объем данных выходит за определенные пределы, традиционных систем и методологий недостаточно для обработки данных или преобразования данных в полезный формат. Вот почему данные обычно делятся на две категории: «Маленькие данные против больших данных».

Сравнение личных данных с большими данными на равных (Инфографика)

Ниже приведено 10 основных отличий между малыми и большими данными.

Ключевые различия между малыми данными и большими данными

Сбор данных - как правило, небольшие данные являются частью OLTP-систем и собираются более контролируемым образом, а затем вставляются в уровень кэширования или базу данных. Базы данных будут иметь реплики чтения для поддержки немедленных аналитических запросов, если это необходимо. Конвейер сбора больших данных будет иметь очереди типа AWS Kinesis или Google Pub / Sub для балансировки высокоскоростных данных. В нисходящем потоке будут потоковые конвейеры для аналитики в реальном времени и пакетные задания для холодной обработки данных.
Обработка данных. Как и большинство малых данных, генерируемых с помощью системы транзакций, аналитика в большинстве случаев будет ориентирована на пакетные процессы. В некоторых редких случаях аналитические запросы выполняются непосредственно поверх транзакционных систем. Среды больших данных будут иметь как конвейерную, так и потоковую обработку. Поток используется для аналитики в реальном времени, такой как обнаружение мошенничества с кредитными картами или прогнозирование цены акций. Пакетная обработка используется для реализации сложной бизнес-логики с данными и продвинутыми алгоритмами.
Масштабируемость. Системы малых данных обычно масштабируются вертикально. Вертикальное масштабирование увеличивает пропускную способность системы, добавляя больше ресурсов на одну и ту же машину. Вертикальное масштабирование является дорогостоящим, но менее сложным в управлении. Системы больших данных в основном зависят от горизонтально масштабируемой архитектуры, которая обеспечивает большую гибкость при меньших затратах. Преимущественные виртуальные машины, доступные в облаке, делают горизонтально масштабируемые системы еще более доступными.
Моделирование данных - небольшие данные, сгенерированные из транзакционных систем, будут иметь нормализованную форму. Конвейеры данных ETL (Extract Transform Load) преобразуют их в схему типа «звезда» или «снежинка» в хранилище данных. Здесь схема всегда применяется при записи данных, что относительно просто, поскольку данные более структурированы. Как упомянуто выше, табличные данные - только часть Больших Данных. Здесь данные реплицируются гораздо чаще по различным причинам, таким как передача обслуживания при сбое или из-за некоторых ограничений базового механизма базы данных (например, некоторые базы данных поддерживают только один вторичный индекс на набор данных). Схема не применяется при записи. Вместо этого схема проверяется при чтении данных.
Связь между хранилищами и вычислениями. В традиционных базах данных, которые в основном обрабатывают малые данные, хранилища и вычисления тесно связаны между собой. Вставка и извлечение данных в базу данных и из нее возможны только через данный интерфейс. Данные не могут быть помещены непосредственно в файловую систему базы данных, или существующие данные не могут быть запрошены с использованием других механизмов БД. На самом деле, эта архитектура очень помогает обеспечить целостность данных. Системы больших данных имеют очень слабую связь между хранением и вычислениями. Обычно данные хранятся в распределенной системе хранения данных, такой как HDFS, AWS S3 или Google GCS, и вычислительный механизм для запроса данных или выбора ETL позже. Например, интерактивные запросы могут выполняться с использованием Presto (Link) и ETL с использованием Apache Hive для одних и тех же данных.

Наука о данных. Алгоритмы машинного обучения требуют ввода данных в хорошо структурированном и правильно закодированном формате, и большую часть времени входные данные будут поступать из обеих транзакционных систем, таких как хранилище данных, и хранилища больших данных, таких как озеро данных. Алгоритмы машинного обучения, работающие исключительно на малых данных, будут простыми, поскольку этап подготовки данных узок. Подготовка и обогащение данных в среде больших данных занимает гораздо больше времени. Большие данные предоставляют множество возможностей для экспериментов с данными из-за большого объема и разнообразия данных.

Безопасность данных. Методы обеспечения безопасности для малых данных, которые находятся в корпоративных хранилищах данных или системах транзакций, предоставляемых соответствующими поставщиками баз данных, которые могут включать привилегии пользователей, шифрование данных, хеширование и т. Д. Защита систем больших данных намного сложнее и сложнее. Рекомендации по обеспечению безопасности включают шифрование данных в покое и при передаче, изоляцию кластерной сети, строгие правила контроля доступа и т. Д.

Сравнение малых данных и больших данных

Основа сравнения	Небольшие данные	Большое количество данных
Определение	Данные, которые «достаточно малы» для понимания человеком. В том объеме и формате, которые делают их доступными, информативными и действенными	Наборы данных настолько большие или сложные, что традиционные приложения для обработки данных не могут с ними справиться
Источник данных	● данные из традиционных корпоративных систем, таких как ○ Планирование корпоративных ресурсов ○ Управление взаимоотношениями с клиентами (CRM) ● финансовые данные, такие как данные главной книги ● данные платежной транзакции с веб-сайта	● Данные о покупке в точках продаж ● Данные о потоке кликов с веб-сайтов ● Данные потока GPS - данные мобильности, отправленные на сервер ● социальные сети - фейсбук, твиттер
объем	Большинство случаев в диапазоне десятков или сотен ГБ. В некоторых случаях мало ТБ (1 ТБ = 1000 ГБ)	Более нескольких терабайт (ТБ)
Скорость (скорость, с которой появляются данные)	● контролируемый и устойчивый поток данных ● накопление данных происходит медленно	● Данные могут поступать с очень высокой скоростью. ● Огромные данные могут накапливаться в течение очень коротких периодов времени
разнообразие	Структурированные данные в табличном формате с фиксированной схемой и полуструктурированные данные в формате JSON или XML	Наборы данных большого разнообразия, которые включают Табличные данные, Текстовые файлы, Изображения, Видео, Аудио, XML, JSON, Журналы, Данные датчика и т. Д.
Правдивость (Качество данных)	Содержит меньше шума, так как данные собираются контролируемым образом.	Обычно качество данных не гарантируется. Требуется тщательная проверка данных перед обработкой.
Значение	Бизнес-аналитика, анализ и отчетность	Комплексный анализ данных для прогнозирования, рекомендаций, поиска шаблонов и т. Д.
Разница во времени	Исторические данные в равной степени действительны, поскольку данные представляют собой надежные деловые взаимодействия	В некоторых случаях данные скоро устаревают (например, обнаружение мошенничества).
Расположение данных	Базы данных внутри предприятия, локальные серверы и т. Д.	В основном в распределенных хранилищах в облаке или во внешних файловых системах.
инфраструктура	Предсказуемое распределение ресурсов. В основном вертикально масштабируемое оборудование	Более гибкая инфраструктура с горизонтально масштабируемой архитектурой. Нагрузка на систему сильно варьируется.

Вывод - маленькие данные против больших данных

Конечная цель анализа данных, чтобы получить своевременную информацию для поддержки принятия решений. Распределение данных по категориям «Малый и Большой» помогает решать задачи анализа данных каждого мира отдельно с помощью соответствующих инструментов. Граница между двумя категориями меняется с появлением современных систем обработки данных, что делает запрос даже больших данных намного быстрее и менее сложным.

Узнайте 10 различий между маленькими данными и большими данными

Содержание:

Разница между Маленькие данные и большие данные

Сравнение личных данных с большими данными на равных (Инфографика)

Ключевые различия между малыми данными и большими данными

Сравнение малых данных и больших данных

Вывод - маленькие данные против больших данных

Рекомендуемые статьи:

Модель иерархической базы данных - Особенности и использование - Пример и преимущество

Иерархическая кластеризация - Агломерационная и разделительная кластеризация

Иерархическая кластеризация в R - Работа и шаги по внедрению кластеризации в R

Иерархический кластерный анализ - Руководство по иерархическому кластерному анализу

Найм менеджеров и рекрутеров - 8 лучших вещей, которые выглядят в резюме

VBA StrComp - Как использовать функцию VBA StrComp в Excel?

Функция сортировки VBA - Как использовать функцию сортировки Excel VBA?

VBA StrConv - Как использовать функцию Excel VBA StrConv?

VBA Set - Присвоить ссылку на объект, диапазон ячеек с помощью набора Excel VBA

VBA Sleep - Как использовать функцию сна VBA Excel? (С примерами)

Подделка текста в фотошопе

Редактируемый размытый тип со стилями слоев в Photoshop

Легкий пластиковый текст с помощью стилей слоев в Photoshop

Срывая фото, чтобы выявить другого - Учебник по Photoshop

Эффект вертикальной фотопанели - урок по Photoshop