Введение в процесс ETL

ETL является одним из важных процессов, необходимых для бизнес-аналитики. Бизнес-аналитика опирается на данные, хранящиеся в хранилищах данных, из которых генерируется множество анализов и отчетов, что помогает в построении более эффективных стратегий и приводит к тактическому и оперативному пониманию и принятию решений.

ETL относится к процессу извлечения, преобразования и загрузки. Это своего рода этап интеграции данных, когда данные, поступающие из разных источников, извлекаются и отправляются в хранилища данных. Данные, извлеченные из различных ресурсов, сначала преобразуются, чтобы преобразовать их в определенный формат в соответствии с требованиями бизнеса. Различные инструменты, которые помогают выполнять эти задачи:

  • IBM DataStage
  • Abinitio
  • Informatica
  • живописная картина
  • Talend

Процесс ETL

Как это работает?

Процесс ETL представляет собой трехэтапный процесс, который начинается с извлечения данных из различных источников данных, а затем необработанные данные претерпевают различные преобразования, чтобы сделать их пригодными для хранения в хранилище данных и загрузить их в хранилища данных в требуемом формате и подготовить их к анализ.

Шаг 1: Извлечь

Этот шаг относится к извлечению требуемых данных из различных источников, которые представлены в разных форматах, таких как XML, файлы Hadoop, плоские файлы, JSON и т. Д. Извлеченные данные хранятся в промежуточной области, где выполняются дальнейшие преобразования. Таким образом, данные тщательно проверяются перед их перемещением в хранилища данных, в противном случае возникнет проблема возврата изменений в хранилища данных.

Перед извлечением данных требуется правильная карта данных между источником и целью, поскольку процесс ETL должен взаимодействовать с различными системами, такими как Oracle, Hardware, Mainframe, системами реального времени, такими как ATM, Hadoop и т. Д., При извлечении данных из этих систем.,

Примечание. Но следует позаботиться о том, чтобы эти системы оставались неизменными при извлечении.

Стратегии извлечения данных
  • Полное извлечение. Это происходит, когда целые данные из источников загружаются в хранилища данных, которые показывают, что хранилище данных заполняется в первый раз или не была разработана стратегия извлечения данных.
  • Частичное извлечение (с уведомлением об обновлении): эта стратегия также известна как дельта, где извлекаются только измененные данные и обновляются хранилища данных
  • Частичное извлечение (без уведомления об обновлении): эта стратегия относится к извлечению конкретных требуемых данных из источников в соответствии с нагрузкой в ​​хранилищах данных вместо извлечения целых данных.

Шаг 2: Преобразование

Этот шаг является наиболее важным шагом ETL. На этом этапе выполняется много преобразований, чтобы подготовить данные для загрузки в хранилища данных, применяя следующие преобразования: -

A. Базовые преобразования: эти преобразования применяются в каждом сценарии, поскольку они являются базовыми потребностями при загрузке данных, извлеченных из различных источников, в хранилища данных.

  • Очистка или обогащение данных: это относится к очистке нежелательных данных из промежуточной области, чтобы неправильные данные не загружались из хранилищ данных.
  • Фильтрация: здесь мы отфильтровываем необходимые данные из большого количества данных, представленных в соответствии с бизнес-требованиями. Например, для создания отчетов о продажах нужны только записи о продажах за этот конкретный год.
  • Консолидация: извлеченные данные объединяются в требуемом формате перед загрузкой в ​​хранилища данных.4.
  • Стандартизации: Поля данных преобразуются, чтобы привести их в тот же требуемый формат, например, поле данных должно быть указано как MM / DD / YYYY.

Б. Расширенные преобразования. Эти типы преобразований являются специфическими для бизнес-требований.

  • Присоединение: в этой операции объединяются данные из двух или более источников, чтобы сгенерировать данные только с нужными столбцами со строками, которые связаны друг с другом.
  • Проверка правильности порога данных: значения, присутствующие в различных полях, проверяются, если они правильные или нет, например, ненулевой номер банковского счета в случае банковских данных.
  • Используйте поиск для объединения данных: различные плоские файлы или другие файлы используются для извлечения конкретной информации, выполняя операцию поиска на этом.
  • Использование любой сложной проверки данных. Многие сложные проверки применяются для извлечения достоверных данных только из исходных систем.
  • Расчетные и производные значения: применяются различные расчеты для преобразования данных в некоторую необходимую информацию
  • Дублирование. Дублирующие данные, поступающие из исходных систем, анализируются и удаляются перед загрузкой в ​​хранилища данных.
  • Реструктуризация ключей: в случае захвата медленно меняющихся данных необходимо сгенерировать различные суррогатные ключи, чтобы структурировать данные в требуемом формате.

Примечание. Массивная параллельная обработка MPP иногда используется для выполнения некоторых основных операций, таких как фильтрация или очистка данных в промежуточной области, для быстрой обработки большого объема данных.

Шаг 3: Загрузить

Этот шаг относится к загрузке преобразованных данных в хранилище данных, откуда они могут использоваться для генерации многих аналитических решений, а также для составления отчетов.

1. Начальная загрузка. Этот тип загрузки происходит при первой загрузке данных в хранилища данных.

2. Инкрементная нагрузка. Это тип нагрузки, которая выполняется для периодического обновления хранилища данных с учетом изменений, происходящих в данных исходной системы.

3. Полное обновление: этот тип загрузки относится к ситуации, когда полные данные таблицы удаляются и загружаются свежими данными.

Затем хранилище данных позволяет использовать функции OLAP или OLTP.

Недостатки процесса ETL

  1. Увеличение объема данных. Существует лимит данных, извлекаемых из различных источников инструментом ETL и передаваемых в хранилища данных. Таким образом, с увеличением объема данных работа с инструментом ETL и хранилищами данных становится громоздкой.
  2. Настройка - это относится к быстрым и эффективным решениям или ответам на данные, сгенерированные исходными системами. Но использование инструмента ETL замедляет этот процесс.
  3. Дорого. Использование хранилища данных для периодического хранения растущего объема данных - это высокая стоимость, которую организация должна заплатить.

Вывод - процесс ETL

Инструмент ETL состоит из процессов извлечения, преобразования и загрузки, где он помогает генерировать информацию из данных, собранных из различных исходных систем. Данные из исходной системы могут поступать в любых форматах и ​​могут загружаться в хранилище данных в любом желаемом формате, поэтому инструмент ETL должен поддерживать подключение ко всем типам этих форматов.

Рекомендуемые статьи

Это руководство к процессу ETL. Здесь мы обсуждаем введение, Как это работает? Инструменты ETL и его недостатки. Вы также можете просмотреть наши другие предлагаемые статьи, чтобы узнать больше -

  1. Informatica ETL Tools
  2. Инструменты тестирования ETL
  3. Что такое ETL?
  4. Что такое тестирование ETL?