Введение в Hive Интервью Вопросы и ответы

В новую эру данных Hive представляет собой пакет инструментов ETL и инфраструктуры хранилищ данных с открытым исходным кодом в масштабе петабайт для хранения структурированных и неструктурированных данных на основе распределенной файловой системы (HDFS).
для анализа, запроса и анализа больших массивов данных путем включения языка, похожего на SQL, называемого HiveQL (HQL), и простого выполнения запросов путем планирования Hadoop MapReduce.

Hive построен на основе Hadoop для обработки и анализа больших данных и упрощает запросы.
Первоначально улей был создан Facebook, позже он был усовершенствован и разработан Apache Software Foundation как открытый исходный код и назван «Apache Hive». Сейчас многие компании используют Apache Hive для своих решений для больших данных.

Если вы ищете работу, связанную с Hive, вам необходимо подготовиться к вопросам интервью Hive 2018 года. Хотя каждое собеседование отличается и объем работы также различен, мы можем помочь вам с лучшими вопросами и ответами для интервью в улье 2018 года, которые помогут вам сделать скачок и добиться успеха в собеседовании.

Ниже приведен список вопросов для интервью, которые чаще всего задают во время интервью. Эти вопросы делятся на две части:

Часть 1 - вопросы интервью улей (основные)

Эта первая часть посвящена основным вопросам и ответам на вопросы интервью.

1. Перечислите различные компоненты архитектуры Hive?

Ответ:
Ниже перечислены пять основных компонентов архитектуры Hive:
• Пользовательский интерфейс (UI): он действует как коммуникатор между пользователями и драйверами, когда пользователь записывает запросы, которые принимает пользовательский интерфейс, и запускает его в драйвере. Доступны два типа интерфейса: командная строка и интерфейс GUI.
• Драйвер: поддерживает жизненный цикл запроса HiveQL. Он получает запросы от пользовательского интерфейса и создает сеанс для обработки запроса.
• Компилятор: он получает планы запросов от драйвера и получает необходимую информацию из Metastore для выполнения плана.
• Metastore: хранит информацию о данных в виде таблицы; это может быть внутренний или внешний стол. Он отправляет информацию метаданных компилятору для выполнения запроса.
• Execute Engine: служба Hive выполнит результат в исполнительном механизме; он выполняет запрос в MapReduce для обработки данных. Он отвечает за контроль каждого этапа для всех этих компонентов.

2. Какие типы режимов могут работать в Hive?

Ответ:
Это общие вопросы интервью улей, задаваемые в интервью. Hive может работать в двух режимах в зависимости от размера данных,
Эти режимы:
• Режим уменьшения карты
•Локальный режим

3. В каких сценариях можно использовать Hive, а какие нет?

Ответ :
Когда вы создаете приложения хранилища данных, когда ваши данные статичны, когда вашему приложению не требуется большое время отклика, когда объем данных огромен, когда данные не меняются быстро и когда вы используете запросы вместо сценариев. Hive поддерживает только транзакции OLAP, он не подходит для транзакций OLTP.

Давайте перейдем к следующим вопросам интервью улей.

4. Какие форматы файлов поддерживает Hive? Перечислите типы приложений, которые поддерживаются HIVE?

Ответ:
По умолчанию Hive поддерживает формат текстового файла, а также двоичный формат файла, такой как файл последовательности, файлы ORC, файлы паркета, файлы Avro Data.
• Файл последовательности: обычно это файл двоичного формата, который может быть сжат и разделен.
• ORC-файл: файл столбца Optimized Row - это записанный файл на основе столбцов и файл хранения, ориентированный на столбцы.
• Parquet file: двоичный файл, ориентированный на столбцы, он очень эффективен для крупномасштабных запросов.
• Файл данных Avro: он совпадает с форматом файла последовательности, который является разделяемым, сжимаемым и ориентированным на строки файлом.
Максимальный размер строкового типа данных, разрешенный в Hive, составляет 2 ГБ.

Hive - это структура хранилища данных, которая подходит для тех приложений, которые написаны на Java, C ++, PHP, Python или Ruby.

5. Какие типы таблиц доступны в Hive?

Ответ:
В приложении Hive есть два типа таблиц:
• Управляемые таблицы: данные и схема находятся под контролем Hive.
• Внешние таблицы: только схема контролирует куст.

Часть 2 - вопросы интервью улей (продвинутый)

Давайте теперь посмотрим на расширенные вопросы интервью улей.

6. Что такое Метастор в Улье? Перечислите и объясните различные типы конфигурации Hive Metastores?

Ответ:
Metastore в Hive используется для хранения метаданных, это центральное хранилище в Hive. Это позволяет хранить информацию метаданных во внешней базе данных. По умолчанию Hive хранит информацию метаданных в базе данных Derby, но она также может храниться в других базах данных, таких как Oracle, MySql и т. Д.
Существует три типа конфигурации Metastore:
• Встроенное метастазирование: это режим по умолчанию; он может получить локальный доступ к библиотеке Hive, все операции командной строки выполняются во встроенном режиме. Служба Hive, служба Metastore и база данных работают в одной и той же JVM.
• Local metastore: хранит данные во внешней базе данных, такой как MySql или Oracle. Служба Hive и служба метастазов работают в одной и той же JVM, она подключается к базе данных, работающей в отдельной JVM.
• Удаленное метастазирование: он использует удаленный режим для выполнения запросов, здесь служба метастазов и служба кустов работают в отдельной JVM. Вы можете иметь несколько серверов метастазов для повышения доступности.

7. Что такое процессор запросов Hive? Каковы различные компоненты процессора запросов Hive?

Ответ:
Это часто задаваемые вопросы интервью Hive в интервью. Hive Query Processor используется для преобразования SQL в задания MapReduce. На основании порядка зависимостей задания выполняются.
Компоненты Hive Query Processor перечислены ниже:
• Семантический анализатор
• UDF и UDAF
• Оптимизатор
• Оператор
• Parser
• Исполнение двигателя
• Проверка типа
• Генерация логического плана
• Физический план Поколение

8. Какова функциональность Object-Inspector в Hive?

Ответ:
Он состоит из Hive, который используется для идентификации структуры отдельных столбцов и внутренней структуры объектов строк. Сложные объекты, которые хранятся в нескольких форматах, могут быть доступны с помощью Object-Inspector в Hive.
Object-Inspector определит структуру объекта и способы доступа к внутренним полям внутри объекта.

Давайте перейдем к следующим вопросам интервью улей.

9. Каковы различные способы подключения приложений к Hive Server?

Ответ:
Существует три способа подключения приложений к серверу Hive:
• Thrift Client: используется для запуска всех команд улья с использованием другого языка программирования, такого как Java, C ++, PHP, Python или Ruby.
• Драйвер ODBC: это будет поддерживать протокол ODBC
• Драйвер JDBC: это будет поддерживать протокол JDBC

10. Что такое классы чтения и записи по умолчанию в Hive?

Ответ:
Ниже приведены классы чтения и записи, доступные в Hive:
• TextInputFormat - этот класс используется для чтения данных в текстовом формате.
• HiveIgnoreKeyTextOutputFormat - этот класс используется для записи данных в текстовом формате.
• SequenceFileInputFormat - этот класс используется для чтения данных в формате файла Hadoop Sequence.
• SequenceFileOutputFormat - этот класс используется для записи данных в формате файла Hadoop Sequence.

Рекомендуемая статья

Это было руководство к Списку Вопросов Интервью Улья и ответам, чтобы кандидат мог легко разобрать эти Вопросы Интервью Улья. Вы также можете посмотреть следующие статьи, чтобы узнать больше -

  1. Топ 5 полезных вопросов и ответов DBA для интервью
  2. 12 самых крутых вопросов и ответов на GitHub
  3. 15 самых важных вопросов и ответов для интервью на Ruby
  4. Топ 10 самых полезных вопросов для интервью на HBase