Введение в Spark Интервью Вопросы и ответы
Apache Spark - это фреймворк с открытым исходным кодом. Spark, поскольку это платформа с открытым исходным кодом, мы можем использовать несколько языков программирования, таких как java, python, Scala, R. По сравнению с производительностью процесса Map-Reduce, spark помогает повысить производительность выполнения. Он также обеспечивает в 100 раз более быстрое выполнение в памяти, чем Map-Reduce. Из-за Мощности обработки искры в настоящее время отрасли предпочитают искру.
Итак, вы, наконец, нашли работу своей мечты в Spark, но задаетесь вопросом, как взломать Spark Interview и какие могут быть возможные вопросы Spark Interview для 2018 года. Каждое собеседование различно, а объем работы также различен. Помня об этом, мы разработали самые распространенные вопросы и ответы Spark Interview для 2018 года, чтобы помочь вам добиться успеха на собеседовании.
Эти вопросы делятся на две части
Часть 1 - Spark Interview Questions (Basic)
Эта первая часть охватывает основные вопросы и ответы Spark интервью
1. Что такое Spark?
Ответ:
Apache Spark - это фреймворк с открытым исходным кодом. Это повышает производительность выполнения, чем процесс Map-Reduce. Это открытая платформа, где мы можем использовать несколько языков программирования, таких как Java, Python, Scala, R. Spark обеспечивает выполнение в памяти, которое в 100 раз быстрее, чем Map-Reduce. Используется концепция RDD. RDD - это эластичный распределенный набор данных, который позволяет ему прозрачно хранить данные в памяти и сохранять их на диске только тогда, когда это необходимо. Это позволит сократить время доступа к данным из памяти, а не с диска. Сегодня индустрия предпочитает Spark из-за ее вычислительной мощности.
2. Разница между Hadoop и Spark?
Ответ:
Критерии характеристик | Apache Spark | Hadoop |
скорость | В 10-100 раз быстрее, чем Hadoop | Нормальная скорость |
обработка | В режиме реального времени и пакетной обработки, в памяти, кеширование | Только пакетная обработка, зависит от диска |
трудность | Легко из-за модулей высокого уровня | Трудно учиться |
восстановление | Позволяет восстановить разделы с помощью RDD | Отказоустойчивой |
интерактивность | Имеет интерактивные, интерактивные режимы | Нет интерактивного режима, кроме Pig & Hive, Нет итеративного режима |
Обычная архитектура Hadoop следует базовому Map-Reduce, для того же процесса искра обеспечивает выполнение в памяти. Вместо чтения-записи с жесткого диска для Map-Reduce, spark обеспечивает чтение-запись из виртуальной памяти.
Давайте перейдем к следующим вопросам Spark Interview.
3. Каковы особенности искры?
Ответ:
- Обеспечить интеграцию с Hadoop и файлами на HDFS. Spark может работать поверх Hadoop, используя кластеризацию ресурсов YARN. У Spark есть возможность заменить движок Hadoop Map-Reduce.
- Polyglot: Spark Предоставить высокоуровневый API для Java, Python, Scala и R. Код Spark может быть написан на любом из этих четырех языков. ИТ предоставляет независимую оболочку для масштабирования (язык, на котором написан Spark) и интерпретатор Python. Что поможет взаимодействовать с искровым двигателем? Оболочка Scala может быть доступна через ./bin/spark-shell, а оболочка Python - через ./bin/pyspark из установленного каталога.
- Скорость: Spark движок в 100 раз быстрее, чем Hadoop Map-Reduce для крупномасштабной обработки данных. Скорость будет достигнута за счет секционирования для распараллеливания распределенной обработки данных с минимальным сетевым трафиком. Spark Предоставляет СДР (Resilient Distributed Datasets), которые можно кэшировать на вычислительных узлах в кластере.
- Несколько форматов: Spark имеет API источника данных. Он предоставит механизм доступа к структурированным данным через искровой SQL. Источниками данных могут быть все что угодно, Spark просто создаст механизм для преобразования данных и потянет их к искре. Spark поддерживает несколько источников данных, таких как Hive, HBase, Cassandra, JSON, Parquet, ORC.
- Spark предоставляет несколько встроенных библиотек для выполнения нескольких задач из одного ядра, таких как пакетная обработка, обработка паром, машинное обучение, интерактивные запросы SQL. Однако Hadoop поддерживает только пакетную обработку. Spark Предоставляет MLIb (библиотеки машинного обучения), которые будут полезны Big-Data Developer для обработки данных. Это помогает удалить зависимости от нескольких инструментов для разных целей. Spark предоставляет общую мощную платформу для инженеров и исследователей данных с высокой производительностью и простотой в использовании.
- Apache Spark задерживает выполнение процесса до тех пор, пока действие не станет необходимым. Это одна из ключевых особенностей искры. Spark добавит каждое преобразование в DAG (прямой ациклический граф) для выполнения, и когда действие захочет выполнить, оно фактически вызовет обработку DAG.
- Потоковое вещание в реальном времени: Apache Spark Обеспечивает вычисления в реальном времени и низкую задержку благодаря выполнению в памяти. Spark предназначен для больших масштабируемостей, таких как тысяча узлов кластера и несколько моделей для вычислений.
4. Что такое пряжа?
Ответ:
Это основные вопросы интервью Spark, задаваемые в интервью. YARN (еще один переговорщик ресурсов) - менеджер ресурсов. Spark - это платформа, которая обеспечивает быстрое выполнение. Spark будет использовать YARN для выполнения задания для кластера, а не свой встроенный менеджер. Есть несколько конфигураций для запуска пряжи. Они включают мастер, режим развертывания, память драйвера, память исполнителя, ядра исполнителя и очередь. Это общие вопросы Spark Interview, которые задаются в интервью ниже, это преимущества spark:
Преимущества Spark по сравнению с Map-Reduce
Spark имеет следующие преимущества перед Map-Reduce:
Благодаря способности процесса In-memory, Spark может выполнять в 10-100 раз быстрее, чем Map-Reduce. Где Map-Reduce может использоваться для сохранения данных на этапе Map и Reduce.
Apache Spark обеспечивает высокий уровень встроенных библиотек для обработки нескольких задач одновременно с пакетной обработкой, потоковой передачей в реальном времени, Spark-SQL, структурированной потоковой передачей, MLib и т. Д. В то же время Hadoop обеспечивает только пакетную обработку.
Процесс Hadoop Map-Reduce будет зависеть от диска, где Spark обеспечивает кэширование и оперативную память.
Spark может выполнять итеративные вычисления, выполнять множественные вычисления для одного и того же набора данных и интерактивно, выполнять вычисления между различными наборами данных, где Hadoop не поддерживает итерационные вычисления.
5. Какой язык поддерживает Spark?
Ответ:
Spark поддерживает Scala, Python, R и Java. На рынке разработчик больших данных в основном предпочитает scala и python. Для масштабирования, чтобы скомпилировать код, нам понадобится Set Path of scale / bin или сделать файл JAR.
6. Что такое СДР?
Ответ:
RDD - это абстракция Resilient Distributed Dataset, которая предоставляет коллекцию элементов, распределенных по всем узлам кластера, что поможет выполнять несколько процессов параллельно. С помощью RDD разработчик может хранить данные в оперативной памяти или в режиме кэширования, чтобы эффективно использовать их для параллельного выполнения операций. СДР можно легко восстановить после сбоя узла.
Часть 2 - Spark Interview Questions (Advanced)
Давайте теперь посмотрим на расширенные вопросы интервью Spark.
7. Какие факторы ответственны за исполнение Spark?
Ответ:
1. Spark обеспечивает выполнение в памяти, а не зависит от диска, как Hadoop Map-Reduce.
2.DRDD Resilient Distributed Dataset, который является ответственным параллельным выполнением нескольких операций на всех узлах кластера.
3. Spark предоставляет функцию общих переменных для параллельного выполнения. Эти переменные помогают уменьшить передачу данных между узлами и совместно использовать копию всех узлов. Есть две переменные.
Переменная 4.Broadcast: эта переменная может использоваться для кэширования значения в памяти на всех узлах
5.Accumulator Variable: эта переменная только «добавляется», например, счетчики и суммы.
8. Что такое память исполнителя?
Ответ:
Это часто задаваемые вопросы об интервью Spark в интервью. Это размер кучи, выделенной для искрового исполнителя. Это свойство можно контролировать с помощью свойства spark.executor.memory флага –executor-memory. Каждое приложение Spark имеет по одному исполнителю для каждого рабочего узла. Это свойство относится к тому, сколько памяти рабочих узлов будет выделено для приложения.
9. Как вы используете Spark Stream? Объясните один вариант использования?
Ответ:
Spark Stream - одна из функций, которая полезна для случая использования в реальном времени. Для этой цели мы можем использовать флюм, кафку с искрой. Flume будет запускать данные из источника. Кафка сохранит данные в теме. Из Kafka Spark извлечет данные, используя поток, и D-stream данные и выполнит преобразование.
Мы можем использовать этот процесс для подозрительных транзакций в реальном времени, предложений в реальном времени и т. Д.
Давайте перейдем к следующим вопросам Spark Interview.
10. Можем ли мы использовать Spark для процесса ETL?
Ответ:
Да, мы можем использовать платформу искры для процесса ETL.
11. Что такое Spark SQL?
Ответ:
Это один из специальных компонентов spark, который будет поддерживать запросы SQL.
12. Какая ленивая оценка?
Ответ:
Когда мы работаем с искрой, Преобразования не оцениваются, пока вы не выполните действие. Это помогает оптимизировать весь рабочий процесс обработки данных. При определении трансформации он добавится в DAG (прямой ациклический граф). И во время действия он начнет выполнять пошаговые преобразования. Это полезный вопрос об интервью Spark, заданный в интервью.
Рекомендуемая статья
Это было руководство к Списку Вопросов Интервью Spark и Ответов, чтобы кандидат мог легко разобраться в этих Вопросах Интервью Spark. Вы также можете посмотреть следующие статьи, чтобы узнать больше
- Java против Node JS упрощает различия
- Mongo База данных Интервью Вопросы | Полезные и наиболее часто задаваемые
- 15 самых успешных R Интервью Вопросы и ответы
- Perl Interview Вопросы и ответы
- SAS System Interview Вопросы - Топ 10 полезных вопросов