Интервью Hadoop Cluster: вопросы и ответы
Цель этой статьи - помочь всем кандидатам на получение больших данных ответить на все вопросы Hadoop Cluster Interview, связанные с настройкой среды больших данных в организации. Эта анкета поможет вам настроить узлы данных, узлы имен и определить емкость сервера, размещенного на демонах больших данных.
Так что, если вы, наконец, нашли работу своей мечты в Hadoop Cluster, но вам интересно, как взломать интервью Hadoop Cluster и какие могут быть возможные вопросы для интервью Hadoop Cluster. Каждое собеседование отличается и объем работы также отличается. Помня об этом, мы разработали наиболее распространенные вопросы и ответы для интервью Hadoop Cluster, чтобы помочь вам добиться успеха на собеседовании.
Вот некоторые из наиболее важных вопросов интервью Hadoop Cluster, которые часто задают во время интервью:
1. Каковы основные компоненты Hadoop в кластере Hadoop?
Ответ :
Hadoop - это среда, в которой мы обрабатываем большие данные, или Hadoop - платформа, на которой можно обрабатывать огромное количество данных на обычных серверах. Hadoop - это сочетание многих компонентов. Ниже приведены основные компоненты в среде Hadoop.
Name Node : это главный узел, который заботится обо всей информации об узлах данных и месте хранения данных в формате метаданных.
Узел вторичного имени : он работает как первичный узел имени, если узел первичного имени выходит из строя.
HDFS (Распределенная файловая система Hadoop) : Он отвечает за все хранилище кластера Hadoop.
Узлы данных : Узлы данных являются подчиненными узлами. Фактические данные сохраняются на подчиненных узлах для обработки.
YARN (еще один участник переговоров по ресурсам) : программная среда для написания приложений и обработки огромных объемов данных. Он предоставляет те же функции, что и MapReduce, кроме того, он позволяет параллельно выполнять каждое пакетное задание в кластере Hadoop.
2.Как спланировать хранение данных в кластере Hadoop?
Ответ :
Хранение основано на формуле (Хранение = Ежедневный прием данных * Репликация).
Если кластер Hadoop ежедневно получает данные 120 ТБ, и у нас есть коэффициент репликации по умолчанию, поэтому ежедневное требование к хранилищу данных будет
Потребность в хранилище = 120 ТБ (ежедневное потребление данных) * 3 (репликация по умолчанию) => 360 ТБ
В результате нам необходимо настроить кластер данных как минимум на 360 ТБ для ежедневного потребления данных.
Хранение также зависит от требований к хранению данных. В случае, если мы хотим, чтобы данные хранились в течение 2 лет в одном кластере, нам нужно расположить узлы данных в соответствии с требованием хранения.
3. Расчет чисел узла данных.
Ответ :
Нам нужно рассчитать количество узлов данных, необходимых для кластера Hadoop. Предположим, у нас есть серверы с JBOD из 10 дисков, и каждый диск имеет размер хранилища 4 ТБ, поэтому каждый сервер имеет хранилище 40 ТБ. Кластер Hadoop получает данные 120 ТБ в день и 360 ТБ после применения коэффициента репликации по умолчанию.
Количество узлов данных = ежедневный прием данных / емкость узла данных
Количество узлов данных = 360/40 => 9 узлов данных
Следовательно, для кластера Hadoop, получающего данные объемом 120 ТБ с вышеуказанной конфигурацией, необходимо настроить только 9 узлов данных.
4. Как изменить коэффициент репликации в кластере Hadoop?
Ответ :
Отредактируйте файл hdfs-site.xml. Путь по умолчанию находится в папке conf / папки установки Hadoop. изменить / добавить следующее свойство в hdfs-site.xml:
dfs.replication
3
Блокировать репликацию
Не обязательно иметь коэффициент репликации 3. Он также может быть установлен как 1. Коэффициент репликации 5 также работает в кластере Hadoop. Установка значения по умолчанию делает кластер более эффективным и требует минимального оборудования.
Увеличение коэффициента репликации увеличит требования к оборудованию, поскольку объем хранилища данных умножается на коэффициент репликации.
5. Какой размер блока данных по умолчанию в Hadoop и как его изменить?
Ответ :
Размер блока сокращает / разделяет данные на блоки и сохраняет их на разных узлах данных.
По умолчанию размер блока составляет 128 МБ (в Apache Hadoop), и мы можем изменить размер блока по умолчанию.
Отредактируйте файл hdfs-site.xml. Путь по умолчанию находится в папке conf / папки установки Hadoop. изменить / добавить следующее свойство в hdfs-site.xml:
dfs.block.size
134217728
Размер блока
размер блока в байтах составляет 134 217 728 или 128 МБ. Кроме того, укажите размер с помощью суффикса (без учета регистра), такого как k (килограмм), m (мега-), g (гига-) или t (тера-), чтобы установить размер блока в КБ, МБ, ТБ и т. Д.…
6. Как долго кластер Hadoop должен хранить удаленный файл HDFS в каталоге delete / trash?
Ответ :
«Fs.trash.interval» - это параметр, который указывает, как долго HDFS может хранить любой удаленный файл в среде Hadoop для извлечения удаленного файла.
Интервал можно определить только в минутах. Для 2-дневного интервала поиска нам нужно указать свойство в текущем формате.
Отредактируйте файл core-site.xml и добавьте / измените его, используя следующее свойство
fs.trash.interval
2880
По умолчанию интервал извлечения равен 0, но администратор Hadoop может добавить / изменить указанное выше свойство в соответствии с требованием.
7. Каковы основные команды для запуска и остановки демонов Hadoop?
Ответ :
Все команды для запуска и остановки демонов хранятся в папке sbin /.
./sbin/stop-all.sh - Чтобы остановить всех демонов одновременно.
hadoop-daemon.sh начальное имя узла
Hadoop-daemon.sh начальный узел данных
yarn-daemon.sh, запустить менеджер ресурсов
yarn-daemon.sh, запустить менеджер узлов
mr-jobhistory-daemon.sh история запуска сервера
8. Какое свойство определяет распределение памяти для задач, управляемых YARN?
Ответ :
Свойство «yarn.nodemanager.resource.memory-mb» необходимо изменить / добавить, чтобы изменить распределение памяти для всех задач, которыми управляет YARN.
Указывает объем оперативной памяти в МБ. Узлы данных занимают 70% фактической оперативной памяти, используемой для YARN. Узел данных с 96 ГБ будет использовать 68 ГБ для YARN, остальная часть ОЗУ используется демоном Data Node для «Non-YARN-Work»
Отредактируйте файл «yarn.xml file» и добавьте / измените следующее свойство.
yarn.nodemanager.resource.memory мб
68608
Значение по умолчанию для yarn.nodemanager.resource.memory-mb составляет 8 192 МБ (8 ГБ). Если узлы данных имеют большой объем оперативной памяти, мы должны изменить значение до 70%, иначе мы будем тратить впустую нашу память.
9. Каковы рекомендации по определению размера имени узла?
Ответ :
Следующие детали рекомендуются для настройки мастер-узла на самом начальном этапе.
Процессоры: для процессов достаточно одного процессора с 6-8 ядрами.
Оперативная память: для обработки данных и работы на сервере должно быть не менее 24-96ГБ ОЗУ.
Хранение: Поскольку на главном узле не хранятся данные HDFS. Вы можете 1-2 ТБ в качестве локального хранилища
Поскольку трудно определить будущие рабочие нагрузки, спроектируйте свой кластер, выбрав такое оборудование, как ЦП, ОЗУ и память, которое можно легко обновить с течением времени.
10. Какие порты по умолчанию в кластере Hadoop?
Ответ :
Имя демона | Порт по умолчанию № |
Имя узла | 50070 |
Узлы данных. | 50075 |
Узел вторичного имени. | 50090 |
Узел резервного копирования / контрольной точки. | 50105 |
Job Tracker. | 50030 |
Трекеры задач. | 50060 |
Рекомендуемые статьи
Это было руководство к списку вопросов и ответов для интервью с кластером Hadoop, чтобы кандидат мог легко разобраться с этими вопросами для интервью в кластере Hadoop. Вы также можете посмотреть следующие статьи, чтобы узнать больше -
- Elasticsearch Интервью Вопросы и ответы-топ и самые полезные
- 9 Amazing MapReduce Интервью Вопросы и ответы
- 8 самых полезных руководств по вопросам интервью Big Data
- ETL Интервью Вопросы и ответы, которые вы должны знать