Хранилище данных против Hadoop - 6 важных отличий

Содержание:

Anonim

Различия между хранилищем данных и Hadoop

Каждое десятилетие в ИТ-отрасли происходят крупные инновации, которые потрясают всю ИТ-индустрию. В последние годы Apache Hadoop сделал то же самое, внедрив центры обработки данных с новой инфраструктурой.

Предоставляя программисту возможность параллельной обработки, Hadoop находится в таком экспоненциальном росте, а его экосистема расширяется как по глубине, так и по ширине, поэтому естественно задаться вопросом, собирается ли Hadoop заменить традиционное хранилище данных.

Давайте посмотрим, что сказал Alasdair Anderson (исполнительный вице-президент Nordea) на саммите Hadoop на эту горячую тему в городе.

«Между EDW и Hadoop сейчас нет никаких отношений - они будут взаимодополняющими. Речь идет не о разрыве и замене: мы не собираемся избавляться от RDBMS или MPP, а вместо этого используем правильный инструмент для правильной работы - и это будет во многом зависеть от цены. »

Всякий раз, когда начинается эта интересная дискуссия, у нас возникает множество вопросов:

1) Если у вас большие данные, вам нужно хранилище данных?

2) Заменит ли Hadoop хранилище данных?

3) Это смерть эпохи традиционного хранилища данных?

Чтобы узнать ответы на все эти вопросы, нам нужно изучить более широкий контекст этой картины.

1. Что такое Hadoop?

Кто не слышал о больших данных в последнее время? С сотнями терабайт данных, генерируемых каждый день из разных источников, ясно, что современный мир сегодня - это мир больших данных

Когда вы начнете говорить о больших данных, вы рано или поздно начнете обсуждать самую горячую тему мира больших данных: Hadoop - но что именно это такое?

Hadoop - это среда программирования на основе Java с открытым исходным кодом, которая поддерживает обработку и хранение чрезвычайно больших наборов данных в распределенной вычислительной среде.

4 Модуля Hadoop -

Hadoop состоит из 4 модулей -

  1. Распределенная файловая система

Распределенная файловая система позволяет хранить данные в легкодоступном формате на большом количестве связанных устройств хранения.

  1. Уменьшение карты

Map Reduce - это комбинация двух операций - считывания данных из базы данных и перевода их в формат, подходящий для анализа (карта) и выполнения математических операций (уменьшение).

  1. Hadoop Common

Hadoop Common предоставляет инструменты, необходимые для данных, хранящихся в HDFS (распределенная файловая система Hadoop)

  1. ПРЯЖА

YARN управляет ресурсами систем, хранящих данные и выполняющих анализ.

2. Что такое хранилище данных?

Хранилище данных - это реляционная база данных, предназначенная для запросов и анализа данных. Обычно он содержит исторические данные, полученные из разных источников.

Среда хранилища данных включает в себя решения ETL, механизм онлайновой аналитической обработки (OLAP), инструменты анализа клиентов и другие приложения, которые управляют процессом анализа данных и их доставки бизнес-пользователям.

Давайте подведем итоги, что такое хранилище данных -

  1. Предмет-ориентированной

Хранилище данных может использоваться для анализа конкретной предметной области, такой как продажи, финансы и инвентарь. Каждая предметная область содержит подробные данные.

  1. интегрированный

Хранилище данных объединяет данные из нескольких источников данных. Например, даты в одном и том же формате, коды мужчин и женщин согласованы. В хранилище данных будет только один способ идентификации продукта, и они используют одну и ту же запись клиента, а не копии

  1. Нелетучий

Данные хранятся в хранилище данных без изменений, и они не изменятся. Таким образом, исторические данные в хранилище данных никогда не должны изменяться.

  1. Время-вариант

Из хранилища данных можно получить данные за 3, 6, 12 или даже более старые данные.

  1. Не виртуальный

Хранилище данных - это физическое постоянное хранилище.

Хранилище данных против Hadoop (Инфографика)

Ниже приведены 6 лучших сравнений между хранилищем данных и Hadoop.

Хранилище данных против Hadoop - какой использовать?

  • Если у вас есть чистые, согласованные и высококачественные данные, вам следует обратиться к хранилищу данных, поскольку в некоторых решениях Hadoop не хватает качества данных.
  • Если у вас есть необработанные неструктурированные данные, то вам следует перейти на Hadoop, поскольку Hadoop хорошо работает с неструктурированными / необработанными данными, а хранилище данных работает только со структурированными данными.
  • Для отчетов с низкой задержкой и интерактивных отчетов вы должны перейти на хранилище данных
  • Для OLTP / запросов в реальном времени / точек вы должны использовать хранилище данных, потому что Hadoop хорошо работает с пакетными данными.
  • Для больших объемов данных вы должны использовать Hadoop, потому что Hadoop предназначен для решения проблем с большими данными.

Сравнительная таблица лицом к лицу между хранилищем данных и Hadoop

Ниже приведен список моментов, описывающих сравнение хранилищ данных с Hadoop.

Основа для сравненияХранилище данныхHadoop
ДанныеВ хранилище данных мы анализируем структурированные и обработанные данныеВ Hadoop мы можем обрабатывать любые данные, включая структурированные / неструктурированные / полуструктурированные и необработанные
обработкаЕго обработка основана на концепциях схемы при записиЕго обработка основана на концепциях схемы на чтение
Место храненияПодходит для данных с небольшим объемом, и это слишком дорого для данных большого объемаОн хорошо работает с большими наборами данных, имеющими огромный объем, скорость и разнообразие
проворствоЭто менее гибкий и фиксированной конфигурацииЭто очень гибкий, настроить и перенастроить по мере необходимости
БезопасностьТехнологии хранилищ данных существуют уже десятки лет. Таким образом, в плане безопасности мы можем положиться на хранилище данныхВ то время как технологии Hadoop относительно новы по сравнению с хранилищем данных, безопасность здесь представляет собой серьезную проблему
пользователейБизнес-профессионалы обычно используют хранилище данныхHadoop достаточно известен в области науки о данных и инженерии данных

Вывод - хранилище данных против Hadoop

Теперь мы знаем о хранилищах данных и Hadoop, давайте вернемся и рассмотрим вопрос, который мы задавали в начале этой статьи о хранилищах данных и Hadoop -

1) если у вас большие данные, вам нужно хранилище данных?

Ответ. Пока вашей организации нужны надежные, правдоподобные и доступные данные, вам необходимо хранилище данных.

2) Заменит ли Hadoop хранилище данных?

Ответ. Сравнение хранилища данных с Hadoop похоже на сравнение яблок и апельсинов. Они и хранилище данных, и Hadoop имеют свои преимущества в различных сценариях использования. В некоторых случаях мы по-прежнему зависим от традиционных методов хранилища данных, но со временем мы все больше внимания уделяем Hadoop Framework для решения проблем больших данных.

3) Это смерть эпохи традиционного хранилища данных?

Ответ. Как видите, это не совсем простой вопрос, и поэтому он не поддается простому ответу. Это правда, что большие данные изменит традиционный подход к хранилищу данных в ближайшие несколько лет, но это не устареет концепций и практики хранилищ данных.

Рекомендуемая статья

Это было полезное руководство по хранилищу данных и Hadoop, здесь мы обсудили их значение, сравнение между собой, ключевое различие и заключение. Вы также можете посмотреть следующую статью, чтобы узнать больше -

  1. Hadoop vs Splunk - узнайте 7 лучших отличий
  2. Hadoop vs Elasticsearch - какой из них более полезен
  3. Большие данные против хранилища данных - узнайте лучшие отличия
  4. Бизнес-аналитика против хранилища данных
  5. Splunk против Nagios