Введение в MapReduce Интервью Вопросы и ответы

MapReduce - это простая модель параллельного программирования данных, разработанная для масштабируемости и отказоустойчивости. Можно сказать, что MapReduce - это фреймворк, использующий концепцию узлов для распараллеливания проблем, возникающих в больших наборах данных, если они являются локальной сетью, то используют одно и то же оборудование, а если MapReduce географически распределен, то соответственно использует другое оборудование. MapReduce по существу состоит из функции Map () и функции Reduce (). Он стал популярным благодаря проекту Hadoop с открытым исходным кодом.

Ниже приведены 9 важных вопросов и ответов MapReduce, посвященных 2019 году:

Если вы ищете работу, связанную с MapReduce, вам необходимо подготовиться к Вопросам об интервью MapReduce 2019 года. Хотя каждое собеседование в MapReduce отличается и объем работы также различен, мы можем помочь вам с ответами на главные вопросы об интервью MapReduce, которые помогут вам сделать скачок и добиться успеха в своем собеседовании.

Эти вопросы делятся на две части:

Часть 1 - MapReduce Интервью Вопросы (основные)

Эта первая часть охватывает основные вопросы и ответы MapReduce Interview.

1. Что такое MapReduce?

Ответ:
MapReduce - это простая модель параллельного программирования данных, разработанная для масштабируемости и отказоустойчивости. Другими словами, это структура, которая обрабатывает распараллеливаемые задачи в больших наборах данных, используя концепцию узлов (количество компьютеров), которые, в свою очередь, классифицируются как кластеры, если это локальная сеть, и используют то же оборудование или сетки, если они географически распределены и используют различное оборудование. MapReduce по существу состоит из функции Map () и функции Reduce (). Он был впервые внедрен в Google и обрабатывает много петабайт данных каждый день. Он стал популярным в рамках проекта Hadoop с открытым исходным кодом и используется в Yahoo, Facebook и Amazon, чтобы назвать некоторых.

2. Для чего используется MapReduce?

Ответ:
Google
• Построение индекса для поиска Google
Процесс построения позиционного или непозиционного индекса называется созданием индекса или индексацией. Роль MapReduce заключается в построении индекса и предназначена для больших компьютерных кластеров. Целью кластера является решение вычислительных задач для узлов или компьютеров, которые построены из стандартных частей, а не суперкомпьютера.
• Кластеризация статей для Новостей Google
Для кластеризации статей страницы сначала классифицируются в зависимости от того, нужны ли они для кластеризации. Страницы содержат много информации, которая не нужна для кластеризации. Затем статья приводится в векторной форме на основе ключевых слов и веса, который ей дан. Затем они группируются с использованием алгоритмов.
• Статистический машинный перевод
Перевод двуязычных текстовых корпусов с помощью анализа генерирует статистические модели, которые переводят один язык на другой с использованием весов, и сводится к наиболее вероятному переводу.
Yahoo
• «Веб-карта» для Yahoo! Поиск
Подобно кластеризации статей для Новостей Google, MapReduce используется для кластеризации результатов поиска в Yahoo! Платформа.
• Обнаружение спама для Yahoo! почта
facebook
•Сбор данных
Недавняя тенденция взрыва данных привела к необходимости сложных методов для разделения данных на куски, которые можно легко использовать для следующего этапа анализа.
• d Оптимизация
• Обнаружение спама

Давайте перейдем к следующим вопросам интервью MapReduce.

3. Каковы цели дизайна MapReduce

Ответ:
Масштабируемость для больших объемов данных.
Поскольку MapReduce - это инфраструктура, предназначенная для работы с распараллеливаемыми данными с использованием концепции узлов, представляющих собой количество компьютеров в виде кластеров или сеток, она масштабируется на n компьютеров. Таким образом, одной из важных целей разработки MapReduce является масштабируемость до 1000 машин и, следовательно, до 10000 дисков.
Экономическая эффективность
Поскольку MapReduce работает с распараллеливанием данных на узлах или на нескольких компьютерах, следующие причины делают его экономически эффективным:
-Дешевые товарные автоматы вместо суперкомпьютера. Хотя дешево они ненадежны.
-Товарная сеть
-Автоматическая отказоустойчивость, т.е. требуется меньше администраторов.
Он прост в использовании, т.е. требует меньше программистов.

4. Каковы проблемы MapReduce?

Ответ:
Это общие вопросы интервью MapReduce, задаваемые в интервью. Основные проблемы MapReduce заключаются в следующем:
-Дешевые узлы не работают, особенно если у вас много
Среднее время между отказами для 1 узла составляет 3 года. Среднее время наработки на отказ для 1000 узлов равно 1 дню. Решение состоит в том, чтобы встроить отказоустойчивость в саму систему.
-Товарная сеть равна или подразумевает низкую пропускную способность
Решение для низкой пропускной способности состоит в том, чтобы подтолкнуть вычисления к данным.
-Программирование распределенных систем сложно
Решением для этого является то, что в соответствии с моделью параллельного программирования данных пользователи пишут функции «map» и «Reduce». Система распределяет работу и обрабатывает неисправности.

5. Что такое модель программирования MapReduce?

Ответ:
Программная модель MapReduce основана на концепции, называемой записями ключ-значение. Он также предоставляет парадигмы для параллельной обработки данных. Для обработки данных в MapReduce входные данные и выходные данные должны быть отображены в формате нескольких пар ключ-значение. Одна пара ключ-значение также называется записью. Программная модель MapReduce состоит из функции Map () и функции Reduce. Модель для них заключается в следующем.
Функция Map (): (K in, V in) лист (K inter, V inter)
Функция Reduce (): (K inter, list (V inter)) list (K out, V out)

Часть 2 - MapReduce Интервью Вопросы (Advanced)

Давайте теперь посмотрим на расширенные вопросы интервью MapReduce.

6. Каковы подробности выполнения MapReduce?

Ответ:
В случае выполнения MapReduce один мастер управляет выполнением задания на нескольких подчиненных устройствах. Преобразователи предпочтительнее размещать на том же узле или той же стойке, что и их входной блок, чтобы минимизировать использование сети. Кроме того, картографы сохраняют выходные данные на локальный диск, а затем подают их на редукторы. Это позволяет восстановление в случае сбоя редуктора и позволяет использовать больше редукторов, чем узлов.

7. Что такое комбинатор?

Ответ:
Объединитель, также известный как полуредуктор, работает, принимая входные данные из класса Map и передавая выходные пары ключ-значение в класс Reducer. Основная функция объединителя - суммировать выходные данные карты с одним и тем же ключом. Другими словами, объединитель - это локальная функция агрегации для повторяющихся ключей, созданных одной и той же картой. Он работает для ассоциативных функций, таких как SUM, COUNT и MAX. Это уменьшает размер промежуточных данных, так как это сводка агрегации значений для всех повторяющихся ключей.

Давайте перейдем к следующим вопросам интервью MapReduce.

8. Почему свинья? Почему не MapReduce?

Ответ:
• MapReduce позволяет программисту выполнять функцию карты, за которой следует функция сокращения, но работа над тем, как приспособить обработку данных к этому шаблону, который часто требует нескольких этапов MapReduce, может быть сложной задачей.
• С помощью Pig структуры данных становятся намного богаче, так как они многозначны и вложены, а набор преобразований, которые вы можете применить к данным, намного мощнее. Например, они включают соединения, которые недопустимы в MapReduce.
• Кроме того, Pig - это одна из программ, превращающая превращение в серию заданий MapReduce.

9.MapReduce Критика

Ответ:
Одна из заметных критических замечаний в отношении MapReduce заключается в том, что цикл разработки очень длинный. Написание картографов и редукторов, компиляция и упаковка кода, отправка задания и получение результатов занимает много времени. Даже с потоковой передачей, которая устраняет этап компиляции и упаковки, процесс все еще занимает много времени.

Рекомендуемая статья

Это было руководство к Списку Вопросов и Ответов на Интервью MapReduce, чтобы кандидат мог легко разобраться в этих Вопросах Интервью MapReduce. Вы также можете посмотреть следующие статьи, чтобы узнать больше -

  1. Важные вопросы интервью аналитики данных
  2. 10 лучших вопросов по шаблонам дизайна
  3. Elasticsearch Интервью Вопросы
  4. Самые полезные вопросы для интервью на Ruby
  5. Как работает MapReduce