Введение в Hadoop Admin Интервью Вопросы и ответы
Таким образом, вы, наконец, нашли работу своей мечты в Hadoop Admin, но вам интересно, как взломать Hadoop Admin Interview и какие могут быть возможные вопросы Hadoop Admin Interview. Каждое собеседование отличается и объем работы также отличается. Помня об этом, мы разработали самые распространенные вопросы и ответы для интервью с администратором Hadoop, чтобы помочь вам добиться успеха на собеседовании.
Ниже приведены вопросы для интервью с администратором Hadoop, которые помогут вам взломать интервью с Hadoop.
1. Что такое стойка осведомленности? И зачем это нужно?
Ответ:
Осведомленность о стойке заключается в распределении узлов данных между несколькими стойками. HDD следует алгоритму осведомленности о стойке для размещения блоков данных. Стойка содержит несколько серверов. А для кластера может быть несколько стоек. Допустим, есть кластер Hadoop с 12 узлами. Там может быть 3 стойки с 4 серверами на каждом. Все 3 стойки соединены так, что все 12 узлов соединены и образуют кластер. При определении количества стоек важно учитывать фактор репликации. Если существует 100 ГБ данных, которые будут передаваться каждый день с коэффициентом репликации 3. Тогда это 300 ГБ данных, которые должны будут находиться в кластере. Это лучший вариант для репликации данных между стойками. Даже если какой-либо узел выйдет из строя, реплика будет находиться в другой стойке.
2. Какой размер блока по умолчанию и как он определяется?
Ответ:
128 МБ и определяется в hdfs-site.xml, а также настраивается в зависимости от объема данных и уровня доступа. Скажем, 100 ГБ данных, передаваемых за день, разделяются и сохраняются в кластере. Какое будет количество файлов? 800 файлов. (1024 * 100/128) (1024 с преобразованием ГБ в МБ.) Есть два способа настроить размер блока данных.
- hadoop fs -D fs.local.block.size = 134217728 (в битах)
- В hdfs-site.xml добавьте это свойство в block.size с размером битов.
Если вы измените размер по умолчанию на 512 МБ, так как размер данных огромен, то сгенерированных файлов no.of будет 200. (1024 * 100/512)
3. Как вы получаете отчет о файловой системе hdfs? О наличии диска и количестве активных узлов?
Ответ:
Команда: sudo -u hdfs dfsadmin –report
Это список информации, которую он отображает,
- Сконфигурированная емкость - общая емкость, доступная в формате hdf
- Текущая емкость - это общий объем пространства, выделенного для ресурсов, которые должны находиться рядом с хранилищем метастазов и fsimage.
- DFS Remaining - это объем дискового пространства, доступного для HDFS для хранения большего количества файлов
- Используется DFS - это пространство хранения, которое использовалось HDFS.
- Используется DFS% - в процентах
- Под реплицированными блоками - Количество блоков
- Блоки с поврежденными репликами - если есть поврежденные блоки
- Недостающие блоки
- Недостающие блоки (с коэффициентом репликации 1)
4. Что такое балансировщик Hadoop и почему это необходимо?
Ответ:
Распределение данных по узлам не распределено в правильной пропорции, что означает, что использование каждого узла может быть не сбалансировано. Один узел может быть перегружен, а другой - не полностью. Это приводит к высокой стоимости эффекта при запуске любого процесса, и это приведет к интенсивному использованию этих узлов. Для решения этой проблемы используется балансировщик Hadoop, который будет уравновешивать использование данных в узлах. Таким образом, всякий раз, когда выполняется балансировщик, данные перемещаются туда, где недостаточно используемые узлы заполняются, а чрезмерно используемые узлы освобождаются.
5. Разница между Cloudera и Ambari?
Ответ:
Cloudera Manager | Ambari |
Инструмент администрирования для Cloudera | Инструмент администрирования для работ Horton |
Контролирует и управляет всем кластером и сообщает об использовании и любых проблемах | Контролирует и управляет всем кластером и сообщает об использовании и любых проблемах |
Поставляется с платным сервисом Cloudera | Открытый источник |
6. Какие основные действия выполняет администратор Hadoop?
Ответ:
Мониторинг работоспособности кластера. Существует множество страниц приложения, которые необходимо отслеживать, если запущены какие-либо процессы. (Сервер истории заданий, менеджер ресурсов YARN, менеджер Cloudera / ambary в зависимости от дистрибутива)
включить защиту - SSL или Kerberos
Производительность мелодии - балансировщик Hadoop
При необходимости добавляйте новые узлы данных - изменения и конфигурации инфраструктуры
Дополнительно можно включить сервер отслеживания истории заданий MapReduce à Иногда перезапуск служб может помочь освободить кэш-память. Это когда кластер с пустым процессом.
7. Что такое Kerberos?
Ответ:
Это проверка подлинности, необходимая для синхронизации каждой службы для запуска процесса. Рекомендуется включить Kerberos. Поскольку мы имеем дело с распределенными вычислениями, всегда полезно иметь шифрование при доступе к данным и их обработке. Поскольку каждый узел подключен и любой информационный поток проходит через сеть. Поскольку Hadoop использует Kerberos, пароли не передаются по сетям. Вместо этого пароли используются для вычисления ключей шифрования. Сообщения обмениваются между клиентом и сервером. Проще говоря, Kerberos обеспечивает идентификацию друг друга (узлов) безопасным способом с помощью шифрования.
Конфигурация в core-site.xml
Hadoop.security.authentication: Kerberos
8. Какой важный список команд hdfs?
Ответ:
команды | Цель |
hdfs dfs –ls | Чтобы вывести список файлов из файловой системы hdfs. |
Hdfs dfs –put | Скопируйте файл из локальной системы в файловую систему hdfs |
Hdfs dfs –chmod 777 | Дайте разрешение на чтение, запись, выполнение файла |
Hdfs dfs –get | Скопируйте файл из файловой системы hdfs в локальную файловую систему |
Hdfs dfs –cat | Просмотр содержимого файла из файловой системы hdfs |
Hdfs dfs –rm | Удалите файл из файловой системы hdfs. Но он будет перемещен в путь к мусорному файлу (это как корзина в Windows) |
Hdfs dfs –rm –skipTrash | Удаляет файл навсегда из кластера. |
Hdfs dfs –touchz | Создать файл в файловой системе hdfs |
9. Как проверить журналы задания Hadoop, представленные в кластере, и как завершить уже запущенный процесс?
Ответ:
yarn logs –applicationId - мастер приложения генерирует журналы в своем контейнере, и к нему будет добавлен идентификатор, который он генерирует. Это будет полезно для отслеживания состояния работающего процесса и информации журнала.
yarn application –kill - если необходимо завершить существующий процесс, запущенный в кластере, команда kill используется там, где идентификатор приложения используется для завершения задания в кластере.
Рекомендуемая статья
Это было руководство к списку вопросов и ответов для интервью с администратором Hadoop, чтобы кандидат мог легко разобраться с этими вопросами для интервью с администратором Hadoop. Вы также можете посмотреть следующие статьи, чтобы узнать больше
- Интервью Hadoop Cluster: вопросы и ответы - 10 самых полезных
- Интервью по моделированию данных - 10 важных вопросов
- SAS System Interview Вопросы - Топ 10 полезных вопросов