Интервью Hadoop Cluster: вопросы и ответы

Цель этой статьи - помочь всем кандидатам на получение больших данных ответить на все вопросы Hadoop Cluster Interview, связанные с настройкой среды больших данных в организации. Эта анкета поможет вам настроить узлы данных, узлы имен и определить емкость сервера, размещенного на демонах больших данных.

Так что, если вы, наконец, нашли работу своей мечты в Hadoop Cluster, но вам интересно, как взломать интервью Hadoop Cluster и какие могут быть возможные вопросы для интервью Hadoop Cluster. Каждое собеседование отличается и объем работы также отличается. Помня об этом, мы разработали наиболее распространенные вопросы и ответы для интервью Hadoop Cluster, чтобы помочь вам добиться успеха на собеседовании.

Вот некоторые из наиболее важных вопросов интервью Hadoop Cluster, которые часто задают во время интервью:

1. Каковы основные компоненты Hadoop в кластере Hadoop?

Ответ :
Hadoop - это среда, в которой мы обрабатываем большие данные, или Hadoop - платформа, на которой можно обрабатывать огромное количество данных на обычных серверах. Hadoop - это сочетание многих компонентов. Ниже приведены основные компоненты в среде Hadoop.
Name Node : это главный узел, который заботится обо всей информации об узлах данных и месте хранения данных в формате метаданных.
Узел вторичного имени : он работает как первичный узел имени, если узел первичного имени выходит из строя.
HDFS (Распределенная файловая система Hadoop) : Он отвечает за все хранилище кластера Hadoop.
Узлы данных : Узлы данных являются подчиненными узлами. Фактические данные сохраняются на подчиненных узлах для обработки.
YARN (еще один участник переговоров по ресурсам) : программная среда для написания приложений и обработки огромных объемов данных. Он предоставляет те же функции, что и MapReduce, кроме того, он позволяет параллельно выполнять каждое пакетное задание в кластере Hadoop.

2.Как спланировать хранение данных в кластере Hadoop?

Ответ :
Хранение основано на формуле (Хранение = Ежедневный прием данных * Репликация).
Если кластер Hadoop ежедневно получает данные 120 ТБ, и у нас есть коэффициент репликации по умолчанию, поэтому ежедневное требование к хранилищу данных будет
Потребность в хранилище = 120 ТБ (ежедневное потребление данных) * 3 (репликация по умолчанию) => 360 ТБ
В результате нам необходимо настроить кластер данных как минимум на 360 ТБ для ежедневного потребления данных.
Хранение также зависит от требований к хранению данных. В случае, если мы хотим, чтобы данные хранились в течение 2 лет в одном кластере, нам нужно расположить узлы данных в соответствии с требованием хранения.

3. Расчет чисел узла данных.

Ответ :
Нам нужно рассчитать количество узлов данных, необходимых для кластера Hadoop. Предположим, у нас есть серверы с JBOD из 10 дисков, и каждый диск имеет размер хранилища 4 ТБ, поэтому каждый сервер имеет хранилище 40 ТБ. Кластер Hadoop получает данные 120 ТБ в день и 360 ТБ после применения коэффициента репликации по умолчанию.
Количество узлов данных = ежедневный прием данных / емкость узла данных
Количество узлов данных = 360/40 => 9 узлов данных
Следовательно, для кластера Hadoop, получающего данные объемом 120 ТБ с вышеуказанной конфигурацией, необходимо настроить только 9 узлов данных.

4. Как изменить коэффициент репликации в кластере Hadoop?

Ответ :
Отредактируйте файл hdfs-site.xml. Путь по умолчанию находится в папке conf / папки установки Hadoop. изменить / добавить следующее свойство в hdfs-site.xml:
dfs.replication
3
Блокировать репликацию
Не обязательно иметь коэффициент репликации 3. Он также может быть установлен как 1. Коэффициент репликации 5 также работает в кластере Hadoop. Установка значения по умолчанию делает кластер более эффективным и требует минимального оборудования.
Увеличение коэффициента репликации увеличит требования к оборудованию, поскольку объем хранилища данных умножается на коэффициент репликации.

5. Какой размер блока данных по умолчанию в Hadoop и как его изменить?

Ответ :
Размер блока сокращает / разделяет данные на блоки и сохраняет их на разных узлах данных.
По умолчанию размер блока составляет 128 МБ (в Apache Hadoop), и мы можем изменить размер блока по умолчанию.
Отредактируйте файл hdfs-site.xml. Путь по умолчанию находится в папке conf / папки установки Hadoop. изменить / добавить следующее свойство в hdfs-site.xml:
dfs.block.size
134217728
Размер блока
размер блока в байтах составляет 134 217 728 или 128 МБ. Кроме того, укажите размер с помощью суффикса (без учета регистра), такого как k (килограмм), m (мега-), g (гига-) или t (тера-), чтобы установить размер блока в КБ, МБ, ТБ и т. Д.…

6. Как долго кластер Hadoop должен хранить удаленный файл HDFS в каталоге delete / trash?

Ответ :
«Fs.trash.interval» - это параметр, который указывает, как долго HDFS может хранить любой удаленный файл в среде Hadoop для извлечения удаленного файла.
Интервал можно определить только в минутах. Для 2-дневного интервала поиска нам нужно указать свойство в текущем формате.
Отредактируйте файл core-site.xml и добавьте / измените его, используя следующее свойство
fs.trash.interval
2880
По умолчанию интервал извлечения равен 0, но администратор Hadoop может добавить / изменить указанное выше свойство в соответствии с требованием.

7. Каковы основные команды для запуска и остановки демонов Hadoop?

Ответ :
Все команды для запуска и остановки демонов хранятся в папке sbin /.
./sbin/stop-all.sh - Чтобы остановить всех демонов одновременно.
hadoop-daemon.sh начальное имя узла
Hadoop-daemon.sh начальный узел данных
yarn-daemon.sh, запустить менеджер ресурсов
yarn-daemon.sh, запустить менеджер узлов
mr-jobhistory-daemon.sh история запуска сервера

8. Какое свойство определяет распределение памяти для задач, управляемых YARN?

Ответ :
Свойство «yarn.nodemanager.resource.memory-mb» необходимо изменить / добавить, чтобы изменить распределение памяти для всех задач, которыми управляет YARN.
Указывает объем оперативной памяти в МБ. Узлы данных занимают 70% фактической оперативной памяти, используемой для YARN. Узел данных с 96 ГБ будет использовать 68 ГБ для YARN, остальная часть ОЗУ используется демоном Data Node для «Non-YARN-Work»
Отредактируйте файл «yarn.xml file» и добавьте / измените следующее свойство.
yarn.nodemanager.resource.memory мб
68608
Значение по умолчанию для yarn.nodemanager.resource.memory-mb составляет 8 192 МБ (8 ГБ). Если узлы данных имеют большой объем оперативной памяти, мы должны изменить значение до 70%, иначе мы будем тратить впустую нашу память.

9. Каковы рекомендации по определению размера имени узла?

Ответ :
Следующие детали рекомендуются для настройки мастер-узла на самом начальном этапе.
Процессоры: для процессов достаточно одного процессора с 6-8 ядрами.
Оперативная память: для обработки данных и работы на сервере должно быть не менее 24-96ГБ ОЗУ.
Хранение: Поскольку на главном узле не хранятся данные HDFS. Вы можете 1-2 ТБ в качестве локального хранилища
Поскольку трудно определить будущие рабочие нагрузки, спроектируйте свой кластер, выбрав такое оборудование, как ЦП, ОЗУ и память, которое можно легко обновить с течением времени.

10. Какие порты по умолчанию в кластере Hadoop?

Ответ :

Имя демона	Порт по умолчанию №
Имя узла	50070
Узлы данных.	50075
Узел вторичного имени.	50090
Узел резервного копирования / контрольной точки.	50105
Job Tracker.	50030
Трекеры задач.	50060

Интервью Hadoop Cluster: вопросы и ответы - 10 самых полезных

Содержание: