Hadoop Admin Интервью Вопросы - Самые полезные и популярные

Введение в Hadoop Admin Интервью Вопросы и ответы

Таким образом, вы, наконец, нашли работу своей мечты в Hadoop Admin, но вам интересно, как взломать Hadoop Admin Interview и какие могут быть возможные вопросы Hadoop Admin Interview. Каждое собеседование отличается и объем работы также отличается. Помня об этом, мы разработали самые распространенные вопросы и ответы для интервью с администратором Hadoop, чтобы помочь вам добиться успеха на собеседовании.

Ниже приведены вопросы для интервью с администратором Hadoop, которые помогут вам взломать интервью с Hadoop.

1. Что такое стойка осведомленности? И зачем это нужно?

Ответ:
Осведомленность о стойке заключается в распределении узлов данных между несколькими стойками. HDD следует алгоритму осведомленности о стойке для размещения блоков данных. Стойка содержит несколько серверов. А для кластера может быть несколько стоек. Допустим, есть кластер Hadoop с 12 узлами. Там может быть 3 стойки с 4 серверами на каждом. Все 3 стойки соединены так, что все 12 узлов соединены и образуют кластер. При определении количества стоек важно учитывать фактор репликации. Если существует 100 ГБ данных, которые будут передаваться каждый день с коэффициентом репликации 3. Тогда это 300 ГБ данных, которые должны будут находиться в кластере. Это лучший вариант для репликации данных между стойками. Даже если какой-либо узел выйдет из строя, реплика будет находиться в другой стойке.

2. Какой размер блока по умолчанию и как он определяется?

Ответ:
128 МБ и определяется в hdfs-site.xml, а также настраивается в зависимости от объема данных и уровня доступа. Скажем, 100 ГБ данных, передаваемых за день, разделяются и сохраняются в кластере. Какое будет количество файлов? 800 файлов. (1024 * 100/128) (1024 с преобразованием ГБ в МБ.) Есть два способа настроить размер блока данных.

hadoop fs -D fs.local.block.size = 134217728 (в битах)
В hdfs-site.xml добавьте это свойство в block.size с размером битов.

Если вы измените размер по умолчанию на 512 МБ, так как размер данных огромен, то сгенерированных файлов no.of будет 200. (1024 * 100/512)

3. Как вы получаете отчет о файловой системе hdfs? О наличии диска и количестве активных узлов?

Ответ:
Команда: sudo -u hdfs dfsadmin –report

Это список информации, которую он отображает,

Сконфигурированная емкость - общая емкость, доступная в формате hdf
Текущая емкость - это общий объем пространства, выделенного для ресурсов, которые должны находиться рядом с хранилищем метастазов и fsimage.
DFS Remaining - это объем дискового пространства, доступного для HDFS для хранения большего количества файлов
Используется DFS - это пространство хранения, которое использовалось HDFS.
Используется DFS% - в процентах
Под реплицированными блоками - Количество блоков
Блоки с поврежденными репликами - если есть поврежденные блоки
Недостающие блоки
Недостающие блоки (с коэффициентом репликации 1)

4. Что такое балансировщик Hadoop и почему это необходимо?

Ответ:
Распределение данных по узлам не распределено в правильной пропорции, что означает, что использование каждого узла может быть не сбалансировано. Один узел может быть перегружен, а другой - не полностью. Это приводит к высокой стоимости эффекта при запуске любого процесса, и это приведет к интенсивному использованию этих узлов. Для решения этой проблемы используется балансировщик Hadoop, который будет уравновешивать использование данных в узлах. Таким образом, всякий раз, когда выполняется балансировщик, данные перемещаются туда, где недостаточно используемые узлы заполняются, а чрезмерно используемые узлы освобождаются.

5. Разница между Cloudera и Ambari?

Ответ:

Cloudera Manager	Ambari
Инструмент администрирования для Cloudera	Инструмент администрирования для работ Horton
Контролирует и управляет всем кластером и сообщает об использовании и любых проблемах	Контролирует и управляет всем кластером и сообщает об использовании и любых проблемах
Поставляется с платным сервисом Cloudera	Открытый источник

6. Какие основные действия выполняет администратор Hadoop?

Ответ:
Мониторинг работоспособности кластера. Существует множество страниц приложения, которые необходимо отслеживать, если запущены какие-либо процессы. (Сервер истории заданий, менеджер ресурсов YARN, менеджер Cloudera / ambary в зависимости от дистрибутива)

включить защиту - SSL или Kerberos

Производительность мелодии - балансировщик Hadoop

При необходимости добавляйте новые узлы данных - изменения и конфигурации инфраструктуры

Дополнительно можно включить сервер отслеживания истории заданий MapReduce à Иногда перезапуск служб может помочь освободить кэш-память. Это когда кластер с пустым процессом.

7. Что такое Kerberos?

Ответ:
Это проверка подлинности, необходимая для синхронизации каждой службы для запуска процесса. Рекомендуется включить Kerberos. Поскольку мы имеем дело с распределенными вычислениями, всегда полезно иметь шифрование при доступе к данным и их обработке. Поскольку каждый узел подключен и любой информационный поток проходит через сеть. Поскольку Hadoop использует Kerberos, пароли не передаются по сетям. Вместо этого пароли используются для вычисления ключей шифрования. Сообщения обмениваются между клиентом и сервером. Проще говоря, Kerberos обеспечивает идентификацию друг друга (узлов) безопасным способом с помощью шифрования.

Конфигурация в core-site.xml
Hadoop.security.authentication: Kerberos

8. Какой важный список команд hdfs?

Ответ:

команды	Цель
hdfs dfs –ls	Чтобы вывести список файлов из файловой системы hdfs.
Hdfs dfs –put	Скопируйте файл из локальной системы в файловую систему hdfs
Hdfs dfs –chmod 777	Дайте разрешение на чтение, запись, выполнение файла
Hdfs dfs –get	Скопируйте файл из файловой системы hdfs в локальную файловую систему
Hdfs dfs –cat	Просмотр содержимого файла из файловой системы hdfs
Hdfs dfs –rm	Удалите файл из файловой системы hdfs. Но он будет перемещен в путь к мусорному файлу (это как корзина в Windows)
Hdfs dfs –rm –skipTrash	Удаляет файл навсегда из кластера.
Hdfs dfs –touchz	Создать файл в файловой системе hdfs

9. Как проверить журналы задания Hadoop, представленные в кластере, и как завершить уже запущенный процесс?

Ответ:
yarn logs –applicationId - мастер приложения генерирует журналы в своем контейнере, и к нему будет добавлен идентификатор, который он генерирует. Это будет полезно для отслеживания состояния работающего процесса и информации журнала.

yarn application –kill - если необходимо завершить существующий процесс, запущенный в кластере, команда kill используется там, где идентификатор приложения используется для завершения задания в кластере.

Hadoop Admin Интервью Вопросы - Самые полезные и популярные

Содержание:

Введение в Hadoop Admin Интервью Вопросы и ответы

1. Что такое стойка осведомленности? И зачем это нужно?

2. Какой размер блока по умолчанию и как он определяется?

3. Как вы получаете отчет о файловой системе hdfs? О наличии диска и количестве активных узлов?

4. Что такое балансировщик Hadoop и почему это необходимо?

5. Разница между Cloudera и Ambari?

6. Какие основные действия выполняет администратор Hadoop?

7. Что такое Kerberos?

8. Какой важный список команд hdfs?

9. Как проверить журналы задания Hadoop, представленные в кластере, и как завершить уже запущенный процесс?

Рекомендуемая статья

Splunk бесплатно - Концепция и сравнение Splunk

Top 10 Splunk Интервью Вопросы и ответы обновлены на 2018

Проверка орфографии в Excel - Как использовать опцию проверки орфографии в Excel?

Splunk vs Elastic Search - узнай 5 лучших отличий

Splunk vs Spark - 8 самых важных отличий

Переопределение в Java - Правила переопределения методов в Java

Переопределение в Python - Функция и правила переопределения

13 способов справиться с переутомлением на рабочем месте - Edu CBA

Переопределение в JavaScript - Изучите типы переопределения в JavaScript

Лучшее руководство для того, что такое PageRank для сайта и его расчет?

Что такое Кафка? - Как это работает? Ключевая концепция и навыки - Advantange & Scope

Что такое блокнот Juypter? - Полное руководство по ноутбуку Juypter

Что такое канбан? - Ключевая концепция - Как это работает? Процесс и польза

Что такое Кубернетес? - Руководство по преимуществам и преимуществам Kubernetes

Что такое Котлин? - Ключевая концепция - Работа и преимущества - Сфера и карьера