Введение в Hadoop Admin Интервью Вопросы и ответы

Таким образом, вы, наконец, нашли работу своей мечты в Hadoop Admin, но вам интересно, как взломать Hadoop Admin Interview и какие могут быть возможные вопросы Hadoop Admin Interview. Каждое собеседование отличается и объем работы также отличается. Помня об этом, мы разработали самые распространенные вопросы и ответы для интервью с администратором Hadoop, чтобы помочь вам добиться успеха на собеседовании.

Ниже приведены вопросы для интервью с администратором Hadoop, которые помогут вам взломать интервью с Hadoop.

1. Что такое стойка осведомленности? И зачем это нужно?

Ответ:
Осведомленность о стойке заключается в распределении узлов данных между несколькими стойками. HDD следует алгоритму осведомленности о стойке для размещения блоков данных. Стойка содержит несколько серверов. А для кластера может быть несколько стоек. Допустим, есть кластер Hadoop с 12 узлами. Там может быть 3 стойки с 4 серверами на каждом. Все 3 стойки соединены так, что все 12 узлов соединены и образуют кластер. При определении количества стоек важно учитывать фактор репликации. Если существует 100 ГБ данных, которые будут передаваться каждый день с коэффициентом репликации 3. Тогда это 300 ГБ данных, которые должны будут находиться в кластере. Это лучший вариант для репликации данных между стойками. Даже если какой-либо узел выйдет из строя, реплика будет находиться в другой стойке.

2. Какой размер блока по умолчанию и как он определяется?

Ответ:
128 МБ и определяется в hdfs-site.xml, а также настраивается в зависимости от объема данных и уровня доступа. Скажем, 100 ГБ данных, передаваемых за день, разделяются и сохраняются в кластере. Какое будет количество файлов? 800 файлов. (1024 * 100/128) (1024 с преобразованием ГБ в МБ.) Есть два способа настроить размер блока данных.

  1. hadoop fs -D fs.local.block.size = 134217728 (в битах)
  2. В hdfs-site.xml добавьте это свойство в block.size с размером битов.

Если вы измените размер по умолчанию на 512 МБ, так как размер данных огромен, то сгенерированных файлов no.of будет 200. (1024 * 100/512)

3. Как вы получаете отчет о файловой системе hdfs? О наличии диска и количестве активных узлов?

Ответ:
Команда: sudo -u hdfs dfsadmin –report

Это список информации, которую он отображает,

  1. Сконфигурированная емкость - общая емкость, доступная в формате hdf
  2. Текущая емкость - это общий объем пространства, выделенного для ресурсов, которые должны находиться рядом с хранилищем метастазов и fsimage.
  3. DFS Remaining - это объем дискового пространства, доступного для HDFS для хранения большего количества файлов
  4. Используется DFS - это пространство хранения, которое использовалось HDFS.
  5. Используется DFS% - в процентах
  6. Под реплицированными блоками - Количество блоков
  7. Блоки с поврежденными репликами - если есть поврежденные блоки
  8. Недостающие блоки
  9. Недостающие блоки (с коэффициентом репликации 1)

4. Что такое балансировщик Hadoop и почему это необходимо?

Ответ:
Распределение данных по узлам не распределено в правильной пропорции, что означает, что использование каждого узла может быть не сбалансировано. Один узел может быть перегружен, а другой - не полностью. Это приводит к высокой стоимости эффекта при запуске любого процесса, и это приведет к интенсивному использованию этих узлов. Для решения этой проблемы используется балансировщик Hadoop, который будет уравновешивать использование данных в узлах. Таким образом, всякий раз, когда выполняется балансировщик, данные перемещаются туда, где недостаточно используемые узлы заполняются, а чрезмерно используемые узлы освобождаются.

5. Разница между Cloudera и Ambari?

Ответ:

Cloudera ManagerAmbari
Инструмент администрирования для ClouderaИнструмент администрирования для работ Horton
Контролирует и управляет всем кластером и сообщает об использовании и любых проблемахКонтролирует и управляет всем кластером и сообщает об использовании и любых проблемах
Поставляется с платным сервисом ClouderaОткрытый источник

6. Какие основные действия выполняет администратор Hadoop?

Ответ:
Мониторинг работоспособности кластера. Существует множество страниц приложения, которые необходимо отслеживать, если запущены какие-либо процессы. (Сервер истории заданий, менеджер ресурсов YARN, менеджер Cloudera / ambary в зависимости от дистрибутива)

включить защиту - SSL или Kerberos

Производительность мелодии - балансировщик Hadoop

При необходимости добавляйте новые узлы данных - изменения и конфигурации инфраструктуры

Дополнительно можно включить сервер отслеживания истории заданий MapReduce à Иногда перезапуск служб может помочь освободить кэш-память. Это когда кластер с пустым процессом.

7. Что такое Kerberos?

Ответ:
Это проверка подлинности, необходимая для синхронизации каждой службы для запуска процесса. Рекомендуется включить Kerberos. Поскольку мы имеем дело с распределенными вычислениями, всегда полезно иметь шифрование при доступе к данным и их обработке. Поскольку каждый узел подключен и любой информационный поток проходит через сеть. Поскольку Hadoop использует Kerberos, пароли не передаются по сетям. Вместо этого пароли используются для вычисления ключей шифрования. Сообщения обмениваются между клиентом и сервером. Проще говоря, Kerberos обеспечивает идентификацию друг друга (узлов) безопасным способом с помощью шифрования.

Конфигурация в core-site.xml
Hadoop.security.authentication: Kerberos

8. Какой важный список команд hdfs?

Ответ:

командыЦель
hdfs dfs –lsЧтобы вывести список файлов из файловой системы hdfs.
Hdfs dfs –putСкопируйте файл из локальной системы в файловую систему hdfs
Hdfs dfs –chmod 777Дайте разрешение на чтение, запись, выполнение файла
Hdfs dfs –getСкопируйте файл из файловой системы hdfs в локальную файловую систему
Hdfs dfs –catПросмотр содержимого файла из файловой системы hdfs
Hdfs dfs –rmУдалите файл из файловой системы hdfs. Но он будет перемещен в путь к мусорному файлу (это как корзина в Windows)
Hdfs dfs –rm –skipTrashУдаляет файл навсегда из кластера.
Hdfs dfs –touchzСоздать файл в файловой системе hdfs

9. Как проверить журналы задания Hadoop, представленные в кластере, и как завершить уже запущенный процесс?

Ответ:
yarn logs –applicationId - мастер приложения генерирует журналы в своем контейнере, и к нему будет добавлен идентификатор, который он генерирует. Это будет полезно для отслеживания состояния работающего процесса и информации журнала.

yarn application –kill - если необходимо завершить существующий процесс, запущенный в кластере, команда kill используется там, где идентификатор приложения используется для завершения задания в кластере.

Рекомендуемая статья

Это было руководство к списку вопросов и ответов для интервью с администратором Hadoop, чтобы кандидат мог легко разобраться с этими вопросами для интервью с администратором Hadoop. Вы также можете посмотреть следующие статьи, чтобы узнать больше

  1. Интервью Hadoop Cluster: вопросы и ответы - 10 самых полезных
  2. Интервью по моделированию данных - 10 важных вопросов
  3. SAS System Interview Вопросы - Топ 10 полезных вопросов