Введение в процесс ETL
ETL является одним из важных процессов, необходимых для бизнес-аналитики. Бизнес-аналитика опирается на данные, хранящиеся в хранилищах данных, из которых генерируется множество анализов и отчетов, что помогает в построении более эффективных стратегий и приводит к тактическому и оперативному пониманию и принятию решений.
ETL относится к процессу извлечения, преобразования и загрузки. Это своего рода этап интеграции данных, когда данные, поступающие из разных источников, извлекаются и отправляются в хранилища данных. Данные, извлеченные из различных ресурсов, сначала преобразуются, чтобы преобразовать их в определенный формат в соответствии с требованиями бизнеса. Различные инструменты, которые помогают выполнять эти задачи:
- IBM DataStage
- Abinitio
- Informatica
- живописная картина
- Talend
Процесс ETL
Как это работает?
Процесс ETL представляет собой трехэтапный процесс, который начинается с извлечения данных из различных источников данных, а затем необработанные данные претерпевают различные преобразования, чтобы сделать их пригодными для хранения в хранилище данных и загрузить их в хранилища данных в требуемом формате и подготовить их к анализ.
Шаг 1: Извлечь
Этот шаг относится к извлечению требуемых данных из различных источников, которые представлены в разных форматах, таких как XML, файлы Hadoop, плоские файлы, JSON и т. Д. Извлеченные данные хранятся в промежуточной области, где выполняются дальнейшие преобразования. Таким образом, данные тщательно проверяются перед их перемещением в хранилища данных, в противном случае возникнет проблема возврата изменений в хранилища данных.
Перед извлечением данных требуется правильная карта данных между источником и целью, поскольку процесс ETL должен взаимодействовать с различными системами, такими как Oracle, Hardware, Mainframe, системами реального времени, такими как ATM, Hadoop и т. Д., При извлечении данных из этих систем.,
Примечание. Но следует позаботиться о том, чтобы эти системы оставались неизменными при извлечении.
Стратегии извлечения данных
- Полное извлечение. Это происходит, когда целые данные из источников загружаются в хранилища данных, которые показывают, что хранилище данных заполняется в первый раз или не была разработана стратегия извлечения данных.
- Частичное извлечение (с уведомлением об обновлении): эта стратегия также известна как дельта, где извлекаются только измененные данные и обновляются хранилища данных
- Частичное извлечение (без уведомления об обновлении): эта стратегия относится к извлечению конкретных требуемых данных из источников в соответствии с нагрузкой в хранилищах данных вместо извлечения целых данных.
Шаг 2: Преобразование
Этот шаг является наиболее важным шагом ETL. На этом этапе выполняется много преобразований, чтобы подготовить данные для загрузки в хранилища данных, применяя следующие преобразования: -
A. Базовые преобразования: эти преобразования применяются в каждом сценарии, поскольку они являются базовыми потребностями при загрузке данных, извлеченных из различных источников, в хранилища данных.
- Очистка или обогащение данных: это относится к очистке нежелательных данных из промежуточной области, чтобы неправильные данные не загружались из хранилищ данных.
- Фильтрация: здесь мы отфильтровываем необходимые данные из большого количества данных, представленных в соответствии с бизнес-требованиями. Например, для создания отчетов о продажах нужны только записи о продажах за этот конкретный год.
- Консолидация: извлеченные данные объединяются в требуемом формате перед загрузкой в хранилища данных.4.
- Стандартизации: Поля данных преобразуются, чтобы привести их в тот же требуемый формат, например, поле данных должно быть указано как MM / DD / YYYY.
Б. Расширенные преобразования. Эти типы преобразований являются специфическими для бизнес-требований.
- Присоединение: в этой операции объединяются данные из двух или более источников, чтобы сгенерировать данные только с нужными столбцами со строками, которые связаны друг с другом.
- Проверка правильности порога данных: значения, присутствующие в различных полях, проверяются, если они правильные или нет, например, ненулевой номер банковского счета в случае банковских данных.
- Используйте поиск для объединения данных: различные плоские файлы или другие файлы используются для извлечения конкретной информации, выполняя операцию поиска на этом.
- Использование любой сложной проверки данных. Многие сложные проверки применяются для извлечения достоверных данных только из исходных систем.
- Расчетные и производные значения: применяются различные расчеты для преобразования данных в некоторую необходимую информацию
- Дублирование. Дублирующие данные, поступающие из исходных систем, анализируются и удаляются перед загрузкой в хранилища данных.
- Реструктуризация ключей: в случае захвата медленно меняющихся данных необходимо сгенерировать различные суррогатные ключи, чтобы структурировать данные в требуемом формате.
Примечание. Массивная параллельная обработка MPP иногда используется для выполнения некоторых основных операций, таких как фильтрация или очистка данных в промежуточной области, для быстрой обработки большого объема данных.
Шаг 3: Загрузить
Этот шаг относится к загрузке преобразованных данных в хранилище данных, откуда они могут использоваться для генерации многих аналитических решений, а также для составления отчетов.
1. Начальная загрузка. Этот тип загрузки происходит при первой загрузке данных в хранилища данных.
2. Инкрементная нагрузка. Это тип нагрузки, которая выполняется для периодического обновления хранилища данных с учетом изменений, происходящих в данных исходной системы.
3. Полное обновление: этот тип загрузки относится к ситуации, когда полные данные таблицы удаляются и загружаются свежими данными.
Затем хранилище данных позволяет использовать функции OLAP или OLTP.
Недостатки процесса ETL
- Увеличение объема данных. Существует лимит данных, извлекаемых из различных источников инструментом ETL и передаваемых в хранилища данных. Таким образом, с увеличением объема данных работа с инструментом ETL и хранилищами данных становится громоздкой.
- Настройка - это относится к быстрым и эффективным решениям или ответам на данные, сгенерированные исходными системами. Но использование инструмента ETL замедляет этот процесс.
- Дорого. Использование хранилища данных для периодического хранения растущего объема данных - это высокая стоимость, которую организация должна заплатить.
Вывод - процесс ETL
Инструмент ETL состоит из процессов извлечения, преобразования и загрузки, где он помогает генерировать информацию из данных, собранных из различных исходных систем. Данные из исходной системы могут поступать в любых форматах и могут загружаться в хранилище данных в любом желаемом формате, поэтому инструмент ETL должен поддерживать подключение ко всем типам этих форматов.
Рекомендуемые статьи
Это руководство к процессу ETL. Здесь мы обсуждаем введение, Как это работает? Инструменты ETL и его недостатки. Вы также можете просмотреть наши другие предлагаемые статьи, чтобы узнать больше -
- Informatica ETL Tools
- Инструменты тестирования ETL
- Что такое ETL?
- Что такое тестирование ETL?