Введение в Data Lake против хранилища данных
Data Lake против Data Warehouse - это термины, которые взаимозаменяемы, но между этими терминами есть различия. Мы представили диаграмму ниже, чтобы понять разницу между этими двумя уровнями, и очень скоро мы подробно рассмотрим каждую из них.
Что такое Data Lake?
Озеро данных - это своего рода хранилище данных, которое состоит только из необработанных данных в виде структурированного, полуструктурированного и неструктурированного формата. Озеро данных в основном используется учеными и инженерами машинного обучения, так как оно помогает им отвечать на вопросы, на которые еще нет ответа, или, возможно, создать вопрос, который еще не известен. Он содержит обширный пул данных с различными типами, и когда они интегрированы, они оказываются очень полезными с точки зрения прогнозного моделирования, которое в основном используется для построения моделей машинного обучения.
Что такое хранилище данных?
Хранилище данных - это централизованное место для хранения преобразованных данных, которые преобразованы в структурированный формат, перед сохранением их в хранилище данных. Хранилище данных может иметь данные из нескольких источников данных, которые загружаются с использованием процесса ETL в хранилище и затем используются для целей бизнес-аналитики.
Сравнение лицом к лицу между Data Lake и Data Warehouse (Инфографика)
Ниже приведены 14 основных различий между Data Lake и Data Warehouse.
Ключевые отличия
Существуют основные ключевые различия между озером данных и хранилищем данных, которые приведены ниже:
- Он состоит из неструктурированных и структурированных данных с разных платформ, таких как датчики, приложения, веб-сайты и т. Д. Он в основном состоит из реляционных данных из СУБД, систем СУБД и других операционных баз данных и приложений.
- Data Lake - это обработка схемы при чтении. Хранилище данных является схемой при записи.
- Это очень проворно. Это менее проворно.
- Конфигурация проста и может адаптироваться к изменениям. Он имеет фиксированную конфигурацию и его очень сложно изменить.
- В основном он используется учеными ИИ и специалистами по машинному обучению. Он используется профессионалами бизнеса.
Сравнительная таблица между Data Lake и Data Warehouse:
Давайте обсудим главное различие между Data Lake и Data Warehouse
Характеристики | Озеро данных | Хранилище данных |
Место хранения | Данные хранятся в необработанном виде в озере данных, и здесь все данные хранятся независимо от источника данных. Они превращаются в другие формы только при необходимости. | Хранилище данных состоит из данных, которые извлекаются из транзакционных и других систем метрик. Здесь данные не в необработанном виде и всегда преобразуются и чисты. |
Использование и цель | Основная цель Data Lake - это ученые, разработчики больших данных и инженеры машинного обучения, которым необходимо провести глубокий анализ для создания моделей для бизнеса, таких как прогнозное моделирование. | Основной целью хранилища данных являются оперативные пользователи, поскольку эти данные представлены в структурированном формате и могут предоставлять готовые отчеты. Поэтому они в основном используются для бизнес-аналитики. |
Входные данные | Основными исходными данными для данных озера являются все виды данных, такие как структурированные, полуструктурированные и неструктурированные данные. Эти данные находятся в данных озера в их первоначальном виде. | Основными входными данными для хранилища данных являются структурированные данные, поступающие из транзакционных систем и систем метрик, которые затем организуются в виде схем. |
Качество данных | Содержит необработанные данные, которые могут или не могут быть курировать. | Он состоит из курируемых данных, которые централизованы и готовы к использованию в целях бизнес-аналитики и аналитики. |
нормализация | Здесь данные не в нормированном виде. | Денормализованные схемы |
история | Технологии, которые используются в таких областях, как Hadoop, Machine Learning, относительно новы по сравнению с хранилищем данных. | Здесь технология, которая используется для хранилища данных, старше. |
Хронология данных | Озеро данных может иметь все виды данных и может использоваться с учетом прошлого, настоящего и перспектив. | Что касается хранилища данных, то здесь большую часть времени тратится на анализ различных источников данных. |
время обработки | Здесь время обработки при анализе и получении результатов из озера данных намного меньше, чем в хранилище данных, потому что здесь данные хранятся в виде необработанных данных, а не в преобразованном формате, в результате чего мы сокращаем время. это может быть потрачено на преобразование данных. Мы можем просто собрать данные, как есть, выполнить базовую очистку и начать строить наши модели. | В случае хранилища данных время, затрачиваемое на обработку, больше по сравнению с озером данных. Причина этого заключается в том, что данные в любом хранилище данных сначала необходимо преобразовать, а затем их можно проанализировать. |
Стоимость хранения | Стоимость хранения в технологиях озера данных относительно ниже, чем в хранилище данных, а также занимает меньше времени. | Стоимость хранения в технологиях хранилища данных больше по сравнению с озером данных. Это связано с тем, что ему требуется больше места для хранения преобразованных данных, поскольку сначала необходимо сохранить необработанные данные, а затем преобразовать их для назначения различных полей в соответствии со структурой хранилища данных. |
Совместимость | Здесь данные всегда хранятся в необработанном формате и преобразуются только тогда, когда это необходимо или когда они готовы к использованию. | Здесь данные хранятся в преобразованном формате, и мы можем столкнуться с проблемами при попытке внести какие-либо изменения. |
доступность | Данные внутри озера данных очень доступны и могут быть быстро обновлены. | Данные внутри хранилища данных являются более сложными, и для внесения в них каких-либо изменений требуется больше затрат, доступ также ограничен только авторизованными пользователями. |
Положение схемы | Схема в основном создается после сохранения данных. Это приносит высокую ловкость. | Здесь схема в основном создается перед хранением данных. |
Процесс обработки | Озеро данных использует процесс ELT, т.е. извлечение, загрузка и преобразование. | Хранилище данных использует традиционный подход ETL, т.е. извлечение, преобразование и загрузка. |
Преимущества | Озеро данных приводит к новым изобретениям, поскольку интеграция объединяет различные типы данных, а также дает ответы на многие оставшиеся без ответа вопросы. | Большинство пользователей организации вовлечены в операционную деятельность, и хранилище данных предоставляет одну из таких блестящих платформ для создания отчетов и метрик поверх преобразованных данных. |
Вывод
В этом посте мы узнали о Data Lakes vs Data Warehouse. Мы также пошли дальше и сравнили оба из них на основе различных параметров. Это должно помочь любому учащемуся получить общее представление о технологиях, которые поддерживают Data Lake и Data Warehouse.
Рекомендуемые статьи
Это было руководством к главному различию между Data Lake и Data Warehouse. Здесь мы обсудим ключевые отличия озера данных от хранилища данных с помощью инфографики и таблицы сравнения. Вы также можете взглянуть на следующие статьи, чтобы узнать больше -
- Скрам против водопада - основные отличия
- MySQL против MySQLi - какой из них лучше?
- Микропроцессор против Микроконтроллера
- Интервью по моделированию данных