Введение в интеграцию данных Talend

Интеграция данных Talend означает объединение данных из разных источников и их объединение в одно представление, чтобы получить некоторые значимые данные из того, что может помочь компании или организации улучшить свой бизнес путем анализа этих данных. Интеграция помогает получить данные, очистить их, выполнить некоторые необходимые преобразования и т. Д., А затем загрузить их в хранилище данных.

Что такое интеграция данных Talend?

  • Talend - это инструмент ETL, который используется для интеграции данных. Talend предоставляет решение для подготовки данных, качества данных, интеграции данных и больших данных.
  • Talend предлагает Open Studio, которая является открытым исходным кодом для интеграции данных и больших данных.
  • Talend open studio помогает обрабатывать огромные данные с помощью больших компонентов данных. Он имеет более 800+ компонентов для различных целей интеграции. Здесь мы будем обсуждать некоторые из компонентов. Чтобы упростить процесс, посмотрите пример ниже
  • У оператора симов есть огромные данные о планах, клиентах, деталях симов и т. Д. Эти данные огромны, поэтому в интеграции также используются большие данные.

Клиент Покупка сима с использованием правительственного идентификатора.
Давая свое имя: AB C
Адрес как: Ченнаи, Ченнаи
Номер телефона: 1234567890

После интеграции данных

Имя: AB
Фамилия: C
Адрес: Ченнаи, Индия
Телефон: +911234567890

Здесь данные очищаются и превращаются в нечто более значимое.

Преимущества интеграции данных

Здесь мы будем обсуждать преимущества интеграции данных.

  1. Анализ бизнес-тенденций с использованием интеграции данных
  2. Объединение данных в единую систему
  3. Экономия времени, более эффективное и меньшее количество переделок
  4. Простое создание отчетов - используется инструментами BI
  5. Ведение и вставка данных в хранилище данных и витрины данных

Применение интеграции данных Talend

Здесь мы будем обсуждать применение интеграции данных Talend.

1. Работа с Talend

  • Убедитесь, что у вас установлена ​​Java и установлены переменные окружения.
  • Загрузите открытый исходный код с веб-сайта Talend и установите программное обеспечение.
  • Создайте новый проект и завершите настройку
  • Talend откроется с вкладкой дизайнера.
  • Talend - это инструмент, основанный на затмении, и компоненты можно перетаскивать из палитры, или вы можете нажать и ввести имя компонента.

2. Первая работа, чтение файла

  • Поиск компонента tFileinputdelimited. Этот компонент используется для чтения любых файлов с разделителями.
  • Поместите компонент tFileinputdelimited. Найдите tLogRow и разместите его в конструкторе вакансий.
  • Щелкните правой кнопкой мыши tFileinputdelimited и выберите row-> main и проведите линию к tLogRow.
  • В компоненте вкладка выбирает путь к файлу, который вы хотите прочитать, и задает разделитель строк как \ n. Если в файле есть разделитель, вы можете указать его.
  • Щелкните по схеме и укажите сведения о типе столбца, или вы можете прочитать всю строку в виде строки с одним столбцом, а значение разделителя должно быть пустым.
  • Вы также можете пропустить верхний и нижний колонтитулы.
  • В компоненте tLogRow выберите способ отображения данных. Формат таблицы или однострочный.
  • tLogRow отображает вывод в консоли запуска.
  • После подключения tFileinputdelimited и tLogRow запустите задание на вкладке «Выполнить».
  • Вы можете увидеть содержимое файла в распечатанной консоли.

3. Вторая работа с использованием Tmap

  • Прочитайте файл и отфильтруйте его в разные выходные файлы.
  • Прочитайте файл в компоненте tFileinputdelimited со схемой из одного столбца в качестве записи.
  • Компонент Tmap - этот компонент помогает преобразовывать данные с помощью некоторых встроенных функций, таких как поиск, объединения и т. Д.
  • В tmap создайте два выхода out1 и out2.
  • В фильтр out1 добавьте record.contains («talend») и нарисуйте запись в out1.
  • Нарисуйте линию записи для другого out2.
  • Из tmap возьмите основные строки и подключитесь к двум tFileoutputdelimited.
  • out1 ссылается на один tfileoutputdelimited1 в виде file1.txt, а out2 - на другой tfileoutputdelimited2 в виде file2.txt.
  • TXT будет иметь записи, которые содержат Talend.
  • TXT будет иметь записи, которые имеют другие имена.

4. Встроенный и репозиторий

  • Встроенный означает, что вы должны установить схему или детали для подключения к базе данных каждый раз.
  • Хранилище удобно для сохранения деталей в метаданных, чтобы вы могли повторно использовать одни и те же данные каждый раз, не вводя каждый раз детали вручную. В метаданных вы можете сохранить схему файла, соединения с базой данных, соединение Hadoop, соединение куста, соединение s3 и многое другое.

Компоненты интеграции данных Talend

Здесь мы будем обсуждать компоненты интеграции данных Talend.

1. tFileList: этот компонент перечисляет файлы в каталоге или папке с заданным шаблоном маски файла.

2. tMysqlConnection: этот компонент используется для соединения с базой данных MySQL. Компоненты Mysql могут использовать это соединение для легкой настройки соединения с базой данных.

3. tMysqlInput: этот компонент помогает выполнить запрос к базе данных mysql и получить таблицу или столбцы. Этот компонент используется для выбора запросов и получения подробной информации.

4. tMysqlOutput: этот компонент используется для вставки или обновления данных в базе данных Mysql.

5. tPrejob: этот компонент выполняется первым в задании и может быть связан с другими компонентами с помощью Subjob ok.

6. tPostjob: этот компонент выполняется последним в задании. Вы можете связать это с компонентами закрытия соединения.

7. tLogcatcher: этот компонент перехватывает предупреждения и ошибки в задании. Это самый важный компонент, используемый в технике обработки ошибок. Журналы ошибок могут быть записаны с использованием этого компонента вместе с tfileoutputdelimited. Есть более 800+ компонентов.

8. Контекстная переменная. Контекстные переменные - это переменные, которые можно использовать в любом месте работы. Он содержит значения и может быть передан другому заданию, также используя компоненты tRun. Использование переменных контекста заключается в том, что мы можем изменить значение для разных целей. Например, у нас может быть набор значений для группы контекста разработки и другой набор значений контекста для производства. Таким образом, нам не нужно менять работу, достаточно просто изменить параметры контекста.

9. Построение задания. Чтобы создать задание, щелкните его правой кнопкой мыши и выберите задание. Вы можете импортировать задание на сборку в TAC. В Консоли администрирования Talend вы планируете задание также запускать зависимость набора заданий. Вы также можете импортировать задание из репозитория Nexus, используя задание артефакта.

10. Создайте задание в TAC: Откройте проводник заданий в TAC. Нажмите новые задачи и выберите нормальные или артефактные задачи. Импортируйте задание на сборку или выберите из Nexus. Выберите сервер заданий, на котором будет работать talend. Сохраните задачу. Теперь вы можете развернуть и запустить задание.

Вывод

  • «Упростите ETL и ELT с помощью ведущего бесплатного ETL-инструмента с открытым исходным кодом для больших данных» - таков слоган для открытой студии.
  • Talend Bigdata имеет много компонентов для обработки больших данных.
  • Стандартное задание, задание Bigdata, потоковое задание Bigdata - это различные типы заданий, доступных в Talend.
  • Задания Bigdata могут быть созданы в среде spark или MapReduce.

Рекомендуемая статья

Это руководство по интеграции данных Talend. Здесь мы обсудим введение в интеграцию данных Talend и преимущества, а также приложения и компоненты. Вы также можете просмотреть наши другие предлагаемые статьи, чтобы узнать больше

  1. Инструмент интеграции данных | Лучшие 12 инструментов
  2. Talend интервью вопросы и ответы
  3. Лучшие инструменты визуализации данных с их типами
  4. Talend vs Mulesoft - Отличия
  5. Что такое Data Mart?