Введение в архитектуру хранилища данных
- Хранилище данных - это хранилище, содержащее коллекции данных нескольких различных типов, полученных из нескольких типов источников.
- Весь процесс, в котором внешние источники данных собираются, обрабатываются, хранятся и анализируются для полезной информации, происходит в наборе систем, которые объединены единой схемой, известной как архитектура хранилища данных.
Архитектура хранилища данных
Архитектура хранилища данных обычно состоит из трех уровней.
- Верхний ярус
- Средний уровень
- Нижний ярус
Верхний ярус
- Верхний уровень состоит из клиентской части архитектуры.
- Информация, преобразованная и примененная логикой, хранящаяся в хранилище данных, будет использоваться и приобретаться для бизнес-целей на этом уровне.
- Существует несколько инструментов для генерации и анализа отчетов для генерации желаемой информации.
- Интеллектуальный анализ данных, ставший сегодня большой тенденцией, осуществляется здесь.
- Все документы анализа требований, стоимость и все функции, которые определяют коммерческую сделку, основанную на прибыли, выполняются на основе этих инструментов, которые используют информацию хранилища данных.
Средний уровень
- Средний уровень состоит из серверов OLAP
- OLAP - Сервер Аналитической Обработки Онлайн
- OLAP используется для предоставления информации бизнес-аналитикам и менеджерам
- Поскольку он расположен на среднем уровне, он по праву взаимодействует с информацией, представленной на нижнем уровне, и передает информацию инструментам верхнего уровня, которые обрабатывают доступную информацию.
- В основном, в архитектуре хранилища данных используется реляционный или многомерный OLAP.
Нижний ярус
Нижний уровень состоит в основном из источников данных, инструмента ETL и хранилища данных.
1. Источники данных
Источники данных состоят из исходных данных, которые получены и предоставлены инструментам Staging и ETL для дальнейшей обработки.
2. Инструменты ETL
- Инструменты ETL очень важны, потому что они помогают объединить логику, необработанные данные и схему в один и загружают информацию в хранилище данных или витрины данных.
- Иногда ETL загружает данные в киоски данных, а затем информация сохраняется в хранилище данных. Этот подход известен как подход «снизу вверх».
- Подход, при котором ETL загружает информацию непосредственно в хранилище данных, известен как нисходящий подход.
Разница между нисходящим и нисходящим подходами
Нисходящий подход | Подход «снизу вверх |
Обеспечивает четкое и согласованное представление информации, поскольку информация из хранилища данных используется для создания витрин данных. | Отчеты могут быть легко созданы, так как сначала создаются витрины данных, и с витринами данных относительно легко взаимодействовать. |
Сильная модель и, следовательно, предпочитаемая крупными компаниями | Не так сильно, но хранилище данных может быть расширено и количество витрин данных может быть создано |
Время, стоимость и обслуживание высоки | Время, стоимость и обслуживание низкие. |
Витрины данных
- Data Mart также является компонентом хранения, используемым для хранения данных конкретной функции или части, связанной с компанией, отдельным органом.
- Витрина данных собирает информацию из хранилища данных, и поэтому мы можем сказать, что витрина данных хранит подмножество информации в хранилище данных.
- Data Marts являются гибкими и небольшими по размеру.
3. Хранилище данных
- Хранилище данных является центральным компонентом всей архитектуры хранилища данных.
- Он действует как хранилище для хранения информации.
- Большие объемы данных хранятся в хранилище данных.
- Эта информация используется несколькими технологиями, такими как Большие Данные, которые требуют анализа больших подмножеств информации.
- Data Mart также является моделью хранилища данных.
Различные уровни архитектуры хранилища данных
Существует четыре различных типа слоев, которые всегда будут присутствовать в архитектуре хранилища данных.
1. Уровень источника данных
- Уровень источника данных - это уровень, на котором встречаются данные из источника и впоследствии отправляются на другие уровни для выполнения требуемых операций.
- Данные могут быть любого типа.
- Исходные данные могут быть базой данных, электронной таблицей или любым другим видом текстового файла.
- Исходные данные могут быть любого формата. Мы не можем ожидать получения данных в одном и том же формате, учитывая, что источники сильно различаются.
- В реальной жизни некоторые примеры исходных данных могут быть
- Файлы журналов каждого конкретного заявления или работы или записи работодателей в компании.
- Данные опроса, данные биржи и т. Д.
- Данные веб-браузера и многое другое.
2. Уровень подготовки данных
Следующие шаги выполняются на уровне промежуточных данных.
1. Извлечение данных
Данные, полученные на исходном уровне, передаются на промежуточный уровень, где первым процессом, который происходит с полученными данными, является извлечение.
2. База данных посадки
- Извлеченные данные временно сохраняются в базе данных посадки.
- Он извлекает данные после извлечения данных.
3. Место проведения
- База данных «Данные в посадке» берется, и в зоне подготовки выполняются несколько проверок качества и операций подготовки.
- Структура и схема также определены, и внесены корректировки в данные, которые неупорядочены, таким образом, пытаясь обеспечить общность данных, которые были получены.
- Наличие места или настройки для данных непосредственно перед преобразованием и изменениями - это дополнительное преимущество, которое делает процесс подготовки очень важным.
- Это облегчает обработку данных.
4. ETL
- Это извлечение, преобразование и загрузка.
- Инструменты ETL используются для интеграции и обработки данных, где логика применяется к довольно необработанным, но несколько упорядоченным данным.
- Эти данные извлекаются в соответствии с требуемым аналитическим характером и преобразуются в данные, которые считаются пригодными для хранения в хранилище данных.
- После преобразования данные или, вернее, информация загружаются в хранилище данных.
- Некоторыми примерами инструментов ETL являются Informatica, SSIS и т. Д.
3. Уровень хранения данных
- Обработанные данные хранятся в хранилище данных.
- Эти Данные очищаются, преобразуются и подготавливаются с определенной структурой и, таким образом, предоставляют работодателям возможность использовать данные в соответствии с требованиями Бизнеса.
- В зависимости от подхода архитектуры, данные будут храниться в хранилище данных, а также в киосках данных. Витрины данных будут обсуждаться на более поздних этапах.
- Некоторые из них также включают оперативное хранилище данных.
4. Уровень представления данных
- Этот уровень, где пользователи могут взаимодействовать с данными, хранящимися в хранилище данных.
- Запросы и несколько инструментов будут использоваться для получения различных типов информации на основе данных.
- Информация достигает пользователя через графическое представление данных.
- Инструменты отчетности используются для получения бизнес-данных, а бизнес-логика также применяется для сбора нескольких видов информации.
- Метаданные Информация и системные операции и производительность также поддерживаются и просматриваются на этом уровне.
Вывод
Важным моментом в Data Warehouse является его эффективность. Чтобы создать эффективное хранилище данных, мы создаем структуру, известную как платформа бизнес-анализа. Существует четыре типа представлений в отношении дизайна хранилища данных.
1. Вид сверху вниз: этот вид позволяет выбирать только определенную информацию, необходимую для хранилища данных.
2. Представление источника данных: это представление показывает всю информацию из источника данных о том, как они преобразуются и хранятся.
3. Представление хранилища данных. Это представление отображает информацию, представленную в хранилище данных через таблицы фактов и таблицы измерений.
4. Представление бизнес-запроса: это представление, которое показывает данные с точки зрения пользователя.
Рекомендуемые статьи
Это было руководство по архитектуре хранилища данных. Здесь мы обсудили различные типы представлений, уровней и уровней архитектуры хранилища данных. Вы также можете просмотреть наши другие предлагаемые статьи, чтобы узнать больше -
- Карьера в хранилище данных
- Как работает JavaScript
- Хранилище данных Интервью Вопросы
- Что такое панды