Введение в Talend Open Studio

Talend предлагает Open Studio, которая является открытым исходным кодом для интеграции данных. Он имеет более 800+ компонентов для различных целей интеграции. Загрузите Talend Open Studio со страницы https://www.talend.com/download/

Интеграция данных означает объединение данных из разных источников и объединение их в одно представление для получения значимых данных из того, что может помочь компании или организации улучшить свой бизнес путем анализа этих данных. Интеграция помогает получить данные, очистить их, выполнить некоторые необходимые преобразования и т. Д., А затем загрузить их в хранилище данных.

Что такое Таленд?

Talend - это инструмент ETL, который используется для интеграции данных. Talend предоставляет решение для подготовки данных, качества данных, интеграции данных и больших данных. Здесь мы будем обсуждать некоторые из компонентов. Чтобы упростить просмотр приведенного ниже примера, у оператора sim есть огромные данные о планах, клиентах, деталях sim и т. Д. Эти данные огромны, поэтому в интеграции также используются большие данные.

Клиент A, покупающий сим с помощью правительственного идентификатора

Давая свое имя как AB C

адрес как Ченнаи, Ченнаи

номер телефона 1234567890

После интеграции данных

Имя: AB

Фамилия: C

Адрес: Ченнаи, Индия

Телефон: +911234567890

Здесь данные очищаются и превращаются в нечто более значимое.

Преимущества

  • Анализ бизнес-тенденций с использованием интеграции данных
  • Объединение данных в единую систему
  • Экономия времени, более эффективное и меньшее количество переделок
  • Простое создание отчетов - используется инструментами BI
  • Ведение и вставка данных в хранилище данных и витрины данных

заявка

Вот следующие приложения, упомянутые ниже

1. Работа с Talend

  • Убедитесь, что у вас установлена ​​Java и установлены переменные окружения.
  • Загрузите открытый исходный код с веб-сайта Talend и установите программное обеспечение.
  • Создайте новый проект и завершите настройку
  • Talend откроется с вкладкой дизайнера.
  • Talend - это инструмент, основанный на затмении, и компоненты можно перетаскивать из палитры, или вы можете нажать и ввести имя компонента.

2. Первая работа Чтение файла

  • Поиск компонента tFileinputdelimited. Этот компонент используется для чтения любых файлов с разделителями.
  • Поместите компонент tfileinputdelimited. Ищите tlogrow и помещайте это в проектировщика работы.
  • Щелкните правой кнопкой мыши tfileinputdelimited, выберите row-> main и нарисуйте линию для перехода в журнал.
  • В компоненте вкладка выбирает путь к файлу, который вы хотите прочитать, и задает разделитель строк как \ n. Если в файле есть разделитель, вы можете указать его.
  • Щелкните по схеме и укажите сведения о типе столбца, или вы можете прочитать всю строку в виде строки с одним столбцом, а значение разделителя должно быть пустым.
  • Вы также можете пропустить верхний и нижний колонтитулы.
  • В компоненте tlogrow выберите способ отображения данных. Формат таблицы или однострочный.
  • tlogrow отображает вывод в консоли запуска.
  • После подключения tfileinputdelimited и tlogrow запустите задание на вкладке «Выполнить».
  • Вы можете увидеть содержимое файла в распечатанной консоли.

3. Вторая работа с использованием Tmap

  • Прочитайте файл и отфильтруйте его в разные выходные файлы.
  • Прочитайте файл в компоненте tfileinputdelimited со схемой из одного столбца в качестве записи.
  • Компонент Tmap - этот компонент помогает преобразовывать данные с помощью некоторых встроенных функций, таких как поиск, объединения и т. Д.
  • В tmap создайте два выхода out1 и out2.
  • В фильтр out1 добавьте row3.record.contains («talend») и нарисуйте запись в out1.
  • Нарисуйте линию записи для другого out2.

  • Из tmap возьмите основные строки и подключитесь к двум tfileoutputdelimited.
  • out1 ссылается на один tfileoutputdelimited1 в виде file1.txt, а out2 - на другой tfileoutputdelimited2 в виде file2.txt.
  • TXT будет иметь записи, которые содержат Talend.
  • TXT будет иметь записи, которые имеют другие имена.

4. Встроенный и репозиторий

  • Встроенный означает, что вы должны установить схему или детали для подключения к базе данных каждый раз.
  • Хранилище удобно для сохранения деталей в метаданных, чтобы вы могли повторно использовать одни и те же данные каждый раз, не вводя каждый раз детали вручную. В метаданных вы можете сохранить схему файла, соединения с базой данных, соединение Hadoop, соединение куста, соединение s3 и многое другое.

Компоненты Talend Open Studio

Вот следующие компоненты Talend Open Studio, упомянутые ниже

1. tFileList

  • Этот компонент перечисляет файлы в каталоге или папке с заданным шаблоном маски файла.

2. tMysqlConnection

  • Этот компонент используется для соединения с базой данных mysql.
  • Компоненты Mysql могут использовать это соединение для легкой настройки соединения с базой данных.

3. tMysqlinput

  • Этот компонент помогает выполнить запрос к базе данных mysql и получить таблицу или столбцы. Этот компонент используется для выбора запросов и получения подробной информации.

4. tMysqlOutput

  • Этот компонент используется для вставки или обновления данных в базе данных Mysql.

5. tprejob

  • Этот компонент выполняется первым в работе и может быть связан с другими компонентами с помощью subjob ok.

6. постпьоб

  • Этот компонент выполняется последним в задании. Вы можете связать это с компонентами закрытия соединения.

7. ловец

  • Этот компонент ловит предупреждения и ошибки в работе.
  • Наиболее важный компонент, используемый в технике обработки ошибок.
  • Журналы ошибок могут быть записаны с использованием этого компонента вместе с tfileoutputdelimited.
  • Есть более 800+ компонентов.

Контекстная переменная

  • Переменные контекста - это переменные, которые можно использовать в любом месте работы.
  • Он содержит значения и может быть передан другому заданию, также используя компонент trun.
  • Использование переменных контекста в том, что мы можем изменить значение для разных целей.
  • Например, у нас может быть набор значений для группы контекста разработки и другой набор значений контекста для производства.
  • Таким образом, нам не нужно менять работу, достаточно просто изменить параметры контекста.

Строить работу

  • Чтобы построить задание, щелкните правой кнопкой мыши задание и выберите «Создать задание»
  • Вы можете импортировать задание на сборку в TAC.
  • В Консоли администрирования Talend вы планируете задание также запускать зависимость набора заданий.
  • Вы также можете импортировать задание из репозитория Nexus, используя задание артефакта.

Создать задачу в TAC

  • Открыть работу дирижера в TAC
  • Нажмите новые задачи и выберите нормальные или артефактные задачи.
  • Импортируйте построенное задание или выберите из нексуса.
  • Выберите сервер заданий, на котором будет работать talend.
  • Сохраните задачу.
  • Теперь вы можете развернуть и запустить задание.

Вывод - Talend Open Studio

«Упростите ETL и ELT с помощью ведущего бесплатного ETL-инструмента с открытым исходным кодом для больших данных» - таков слоган для открытой студии. Talend Bigdata имеет много компонентов для обработки больших данных. Стандартное задание, задание Bigdata, потоковое задание Bigdata - это различные типы заданий, доступных в Talend. Задания Bigdata могут быть созданы в среде spark или mapreduce.

Рекомендуемые статьи

Это руководство по Talend Open Studio. Здесь мы обсуждаем преимущества, приложения и компоненты Talend Open Studio. Вы также можете взглянуть на следующие статьи, чтобы узнать больше -

  1. Руководство по интеграции данных Talend
  2. Важные вопросы по интервью с Talend
  3. Talend vs Mulesoft: различия
  4. Talend vs Pentaho: 8 полезных сравнений для изучения