Что такое свинья?

Свинья - это движок с открытым исходным кодом, который является частью экосистемных технологий Hadoop. Pig отлично работает с данными, которые выходят за рамки традиционных баз данных или хранилищ данных. Это может хорошо работать с отсутствующими, неполными или противоречивыми данными, которые не имеют схемы. Свинья имеет свой собственный язык для выражения манипуляций с данными, который является Pig Latin.

Понимание Свиньи

Pig - это технология, которая позволяет вам писать высокоуровневые, но чрезвычайно детализированные сценарии, которые позволяют вам работать с данными, где схема либо неизвестна, либо противоречива. Pig - это технология с открытым исходным кодом, которая работает поверх Hadoop и является частью чрезвычайно динамичной и популярной экосистемы Hadoop.

Pig хорошо работает с неструктурированными и неполными данными, поэтому вам не нужно иметь традиционный макет правил и столбцов для всего.

Он четко определен и может напрямую работать с файлами в HDFS (распределенная файловая система Hadoop).

Свинья будет вашей технологией выбора, когда вы хотите получить данные из источника в хранилище данных.

Например, визуальный конвейер того, как данные обычно передаются, прежде чем вы сможете использовать их для создания хороших диаграмм, которые вы используете для принятия бизнес-решений.

Необработанные данные поступают из различных источников, таких как датчики, мобильные телефоны и т. Д. Затем вы будете использовать Pig для выполнения операции ETL. ETL означает извлечение, преобразование и загрузку, после выполнения этих операций очищенные данные сохраняются в другой базе данных. Примером такой базы данных может служить HDFS, которая является частью Hadoop. Hive - это хранилище данных, которое будет работать поверх файловой системы, такой как эта. Hive - это то, что вы будете использовать для анализа, создания отчетов и извлечения информации.

ETL является очень важным шагом в обработке данных, чтобы очистить необработанные данные и получить их в нужной форме для хранения в базе данных. Извлечение относится к операции извлечения неструктурированных, противоречивых данных с отсутствующим полем и значениями из исходного источника. Преобразование обозначает последовательность операций, которые вы применили бы к данным, чтобы очистить или получить их.

Предварительное вычисление полезной совокупной информации, обработка полей для соответствия определенному формату, все это является частью очистки данных полей преобразования.

Наконец, Pig выполняет операцию загрузки, где эти чистые данные хранятся в базе данных, где они могут быть дополнительно проанализированы. Примером стандартной операции, которую выполняет Pig, является очистка файлов журнала.

Объяснить Свинья Архитектура

В Архитектуре есть много частей Свиньи, предпочитают:

Parser : Parser имеет дело с Pig Scripts, а также проверяет синтаксис сценария, проверяет тип и различные различные проверки. Кроме того, их результатом может быть DAG (направленный ациклический граф), который обычно обозначает утверждения Pig Latin вместе с логическими операторами.

Кроме того, логические операторы со сценарием будут показаны как узлы, а также будут показаны потоки данных, начиная с ребер через DAG.

Оптимизатор: позже логический план (DAG) обычно превышается по отношению к логическому оптимизатору. Он выполняет дополнительную логическую оптимизацию, включая прогнозирование, и способствует снижению
Компилятор. Кроме того, компилятор компилирует этот улучшенный логический план в группе MapReduce.
Механизм выполнения. В конечном итоге все работы MapReduce будут опубликованы в Hadoop в отсортированной последовательности. В конце концов, это приводит к требуемым результатам, хотя эти работы MapReduce будут выполняться с помощью Hadoop.
MapReduce: MapReduce изначально был разработан в Google как способ обработки веб-страниц, чтобы обеспечить поиск Google. MapReduce распределяет вычисления между несколькими компьютерами в кластере. MapReduce использует преимущества присущего ей параллелизма в обработке данных. Современные системы, такие как датчики или даже обновления статуса Facebook, генерируют миллионы записей необработанных данных.

Деятельность с этим уровнем может быть подготовлена в два этапа:

карта
уменьшить

Вы сами решаете, какую логику вы хотите реализовать на этих этапах для обработки ваших данных.

HDFS (распределенная файловая система Hadoop ): Hadoop обеспечивает беспрецедентный объем хранения и анализа данных в масштабе. Разработчики используют такие приложения, как Pig, Hive, HBase и Spark, для извлечения данных из HDFS.

Характеристики

Apache Pig имеет следующие особенности:

Простота программирования: Pig Latin сравним с SQL, и поэтому разработчикам довольно просто создать сценарий Pig. Если у вас есть понимание языка SQL, выучить язык Pig Latin очень просто, так как он похож на язык SQL.
Богатый набор операторов: Pig включает в себя множество богатых наборов операторов, которые могут выполнять такие процедуры, как объединение, фильтрация, сортировка и многое другое.
Возможности оптимизации: производительность задачи в Apache Pig может быть мгновенно повышена самой задачей; поэтому разработчики должны просто сосредоточиться на семантике этого языка.
Расширяемость. Используя доступные операторы, пользователи могут просто разрабатывать свои функции для чтения, обработки и записи данных.
Пользовательские функции (UDF): Используя сервис, предоставляемый Pig для создания UDF, мы могли бы создавать пользовательские функции для ряда языков разработки, включая Java, а также вызывать или встраивать их все в сценарии Pig.

Для чего нужна свинья?

Он используется для проверки, а также выполнения обязанностей, включая специальную обработку. Apache Pig может использоваться для:
Анализ с огромным набором необработанных данных предпочитает обработку данных, чтобы получить поисковые сайты. Например, Yahoo, Google использует Apache Pig для оценки данных, собранных через Google, а также в поисковых системах Yahoo. Обработка больших коллекций данных, таких как веб-записи, потоковая информация в Интернете и так далее. Даже обновления статуса Facebook генерируют миллионы записей необработанных данных.

Как эта технология помогает вам расти в вашей карьере?

Многие организации внедряют Apache Pig невероятно быстро. Это означает, что профессии в области свиноводства и свиноводства повышаются ежедневно. За последние пару лет был достигнут огромный прогресс в разработке Apache Hadoop. Элементы Hadoop, такие как Hive, Pig, HDFS, HBase, MapReduce и так далее.

Хотя предложения Hadoop вступили в их второе десятилетие в это время, они получили широкое признание в течение предыдущих трех-четырех лет. Большое количество компаний-разработчиков невероятно часто применяют кластеры Hadoop. Это, безусловно, лучшая часть больших данных. Эксперты по прицеливанию могут превратиться в опытных в этой превосходной технологии.

Вывод

Apache Pig Expertise очень востребован на рынке и может быть продлен. Простое понимание концепций, а также получение опыта работы с лучшими навыками Apache Pig в Hadoop позволят специалистам отлично освоить свою профессию Apache Pig.

Что такое свинья? - Особенности и понимание - Архитектура и карьера

Содержание: