Лучшие 10 вопросов и ответов по Apache PIG (Обновлено на 2019 г.)

Введение в вопросы и ответы по интервью Apache PIG

Итак, вы, наконец, нашли работу своей мечты в Apache PIG, но нам интересно, как взломать интервью Apache PIG 2019 года и какие могут быть вероятные вопросы об интервью Apache PIG. Каждое собеседование с Apache PIG отличается от другого, и объем работы также отличается. Помня об этом, мы разработали наиболее распространенные вопросы и ответы на собеседования с Apache PIG, чтобы помочь вам добиться успеха на собеседовании с Apache PIG.

Ниже приведен список вопросов интервью Apache PIG, которые задают в основном в 2019 году.

1. Каковы основные различия между MapReduce и Apache Pig?

Ответ:
Ниже приведены ключевые различия между Apache Pig и MapReduce, из-за которых Apache Pig появился на рисунке:
• MapReduce - это модель обработки данных низкого уровня, тогда как Apache Pig - это платформа потоков данных высокого уровня.
• Без написания сложных реализаций Java в MapReduce программисты могут легко реализовать те же реализации, используя Pig Latin.
• Apache Pig предоставляет вложенные типы данных, такие как сумки, кортежи и карты, поскольку они отсутствуют в MapReduce.
• Свинья поддерживает операции с данными, такие как фильтры, объединения, упорядочение, сортировка и т. Д. Со многими встроенными операторами. Принимая во внимание, что выполнять ту же функцию в MapReduce - огромная задача.

2. Объясните использование MapReduce в Pig.

Ответ:
Программы Apache Pig написаны на языке запросов, известном как Pig Latin, который похож на язык запросов SQL. Для выполнения запроса требуется механизм исполнения. А механизм Pig преобразует запросы в задания MapReduce, и, таким образом, MapReduce действует как механизм выполнения и необходим для запуска программ.

3. Объясните использование Свиньи.

Ответ:
Мы можем использовать Свинью в трех категориях, это:
• ETL-конвейер данных: он помогает заполнить наше хранилище данных. Свинья может передать данные во внешнее приложение, дождаться завершения обработки, чтобы получить обработанные данные, и продолжить оттуда. Это наиболее распространенный вариант использования свиньи.
• Исследование необработанных данных.
• Итеративная обработка.

4. Сравните Apache Pig и SQL.

Ответ:
• Apache Pig отличается от SQL тем, что использует ETL, ленивую оценку, хранение данных в любой момент времени в конвейере, поддержку разбиений конвейера и явное объявление планов выполнения. SQL (язык структурных запросов) ориентирован на запросы, которые дают один результат. В SQL нет встроенного механизма разделения потока обработки данных и применения различных операторов к каждому подпотоку.
• Apache Pig позволяет включать пользовательский код в любой точке конвейера, тогда как если SQL, где должны использоваться данные, необходимо сначала импортировать в базу данных, а затем начинается процесс очистки и преобразования.

5. Объясните о различных сложных типах данных в Pig.

Ответ:
Apache Pig поддерживает три сложных типа данных:
• Карты - это ключевые хранилища значений, объединенные с помощью #.
Пример: ('city' # 'pune', 'pin' # 411045) • Tuples - точно так же, как строка в таблице, где различные элементы разделены запятой. Кортежи могут иметь несколько атрибутов.
• Сумки - неупорядоченная коллекция кортежей. Сумка позволяет несколько дубликатов кортежей.
Пример: ((«Мумбаи», 022), («Нью-Дели», 011), («Калькутта», 44))

6. Объясните различные модели исполнения, доступные в Pig.

Ответ:
Три различных режима исполнения доступны в Pig они есть,
• Интерактивный режим или режим Grunt.
Интерактивный режим или режим ворчания: интерактивная оболочка свиньи известна как ворчливая оболочка. Если не указан файл для запуска в Pig, он запустится.
• Пакетный режим или режим сценария.
Свинья выполняет указанные команды в файле скрипта.
• Встроенный режим
Мы можем встраивать программы Pig в Java и запускать программы из Java.

7. Объясните планы выполнения (логический и физический план) Pig Script

Ответ:
Логические и физические планы создаются во время выполнения сценария свиньи. Скриптовые сценарии основаны на проверке интерпретатора. Логический план создается семантической проверкой и базовым анализом, и при создании логического плана обработка данных не выполняется. Для каждой строки в сценарии Pig выполняется проверка синтаксиса для операторов и создается логический план. Всякий раз, когда в скрипте встречается ошибка, генерируется исключение, и выполнение программы заканчивается, иначе для каждого оператора в скрипте есть свой логический план.
Логический план содержит набор операторов в сценарии, но не содержит ребер между операторами.
После создания логического плана выполнение сценария переходит на физический план, где есть описание физических операторов, которые Apache Pig будет использовать для выполнения сценария Pig. Физический план более или менее похож на серию заданий MapReduce, но в этом плане нет никаких ссылок на то, как он будет выполняться в MapReduce. Во время создания физического плана логический оператор cogroup преобразуется в 3 физических оператора, а именно - Локальная перестановка, Глобальная перестановка и Пакет. Функции загрузки и хранения обычно разрешаются в физическом плане.

8. Какие инструменты отладки используются для скриптов Apache Pig?

Ответ:
Опишите и объясните важные утилиты отладки в Apache Pig.
• Утилита объяснения полезна для разработчиков Hadoop при попытке отладки ошибок или оптимизации сценариев PigLatin. объяснение может быть применено к определенному псевдониму в сценарии или к всему сценарию в интерактивной оболочке grunt. Утилита объяснения создает несколько графиков в текстовом формате, которые можно распечатать в файл.
• Утилита описания отладки полезна для разработчиков при написании сценариев Pig, поскольку показывает схему отношения в сценарии. Для новичков, которые пытаются изучить Apache Pig, можно использовать утилиту описания, чтобы понять, как каждый оператор вносит изменения в данные. Свинья сценарий может иметь несколько описаний.

9. Какие примеры использования Apache Pig вы можете себе представить?

Ответ:
• Инструмент больших данных Apache Pig используется, в частности, для итеративной обработки, исследования необработанных данных и для традиционных конвейеров данных ETL. Поскольку Pig может работать в обстоятельствах, когда схема неизвестна, непоследовательна или неполна, она широко используется исследователями, которые хотят использовать данные до их очистки и загрузки в хранилище данных.
• Например, для построения моделей прогнозирования поведения он может использоваться веб-сайтом для отслеживания реакции посетителей на различные типы рекламы, изображений, статей и т. Д.

10. Выделите разницу между групповыми и Cogroup операторами в Pig.

Ответ:
Оба оператора могут работать с одним или несколькими отношениями. Операторы Group и Cogroup идентичны. Оператор группы собирает все записи с одинаковым ключом. Cogroup представляет собой комбинацию группы и объединения, это обобщение группы, а не сбор записей одного ввода зависит от ключа, он собирает записи n входов на основе ключа. Одновременно мы можем объединить до 127 отношений.

Лучшие 10 вопросов и ответов по Apache PIG (Обновлено на 2019 г.)

Содержание:

Введение в вопросы и ответы по интервью Apache PIG

1. Каковы основные различия между MapReduce и Apache Pig?

2. Объясните использование MapReduce в Pig.

3. Объясните использование Свиньи.

4. Сравните Apache Pig и SQL.

5. Объясните о различных сложных типах данных в Pig.

6. Объясните различные модели исполнения, доступные в Pig.

7. Объясните планы выполнения (логический и физический план) Pig Script

8. Какие инструменты отладки используются для скриптов Apache Pig?

9. Какие примеры использования Apache Pig вы можете себе представить?

10. Выделите разницу между групповыми и Cogroup операторами в Pig.

Рекомендуемые статьи

Интервью по моделированию данных - 10 важных вопросов

Модели данных в СУБД - Введение - Различные типы моделей данных

Data Science Карьера - Образование и карьера - Работа и зарплата

Предварительная обработка данных в машинном обучении - 6 шагов для предварительной обработки данных

Модель данных в Кассандре - Как смоделировать данные в Кассандре?

Что такое EIGRP? - Основы и преимущества протокола маршрутизации EIGRP

Что такое ES6? - Работа, понимание, необходимость ES6 - Карьерный рост

Что такое EJB? - Как это работает? Навыки и карьерный рост - преимущества

Что такое встраиваемые системы? - Работа и преимущества - Сфера и карьера

Что такое шифрование? - Как это работает? Использование и типы - Карьера и преимущества

Скользящие средние в Excel (примеры) - Как рассчитать?

MTBF Формула - Как рассчитать среднее время между отказами?

Многомерный массив в Python - Создание многомерного списка

КРУГЛЫЙ в Excel - Как применить MROUND в Excel с примерами?

Многомерный массив в Java - Операции над многомерными массивами