Установить Spark - Полное руководство по установке Spark

Как установить Spark?

Spark - это платформа с открытым исходным кодом для запуска аналитических приложений. Это механизм обработки данных, размещенный в независимой от поставщика Apache Software Foundation для работы с большими наборами данных или большими данными. Это кластерная вычислительная система общего назначения, которая предоставляет высокоуровневые API в Scala, Python, Java и R. Она была разработана для преодоления ограничений в парадигме MapReduce Hadoop. Специалисты по данным считают, что Spark работает в 100 раз быстрее, чем MapReduce, поскольку он может кэшировать данные в памяти, тогда как MapReduce работает больше, читая и записывая на диски. Он выполняет обработку в памяти, что делает его более мощным и быстрым.

У Spark нет собственной файловой системы. Он обрабатывает данные из различных источников данных, таких как распределенная файловая система Hadoop (HDFS), система Amazon S3, Apache Cassandra, MongoDB, Alluxio, Apache Hive. Он может работать на Hadoop YARN (еще один посредник ресурсов), на Mesos, на EC2, в Kubernetes или в автономном режиме кластера. Он использует RDD (Resilient Distributed Dataset) для делегирования рабочих нагрузок отдельным узлам, которые поддерживаются в итеративных приложениях. Благодаря RDD программирование проще по сравнению с Hadoop.

Spark состоит из различных компонентов, которые называются Spark Ecosystem Components.

Spark Core: это основа приложения Spark, от которого напрямую зависят другие компоненты. Он предоставляет платформу для широкого спектра приложений, таких как планирование, распределенная диспетчеризация задач, обработка памяти и обращение к данным.
Spark Streaming: это компонент, который работает с потоковыми данными в реальном времени для обеспечения аналитики в реальном времени. Активные данные поступают в отдельные блоки, называемые пакетами, которые выполняются в Spark Core.
Spark SQL: это компонент, который работает поверх ядра Spark для выполнения запросов SQL к структурированным или полуструктурированным данным. Фрейм данных - это способ взаимодействия с Spark SQL.
GraphX: это механизм вычислений графа или структура, которая позволяет обрабатывать данные графа. Он предоставляет различные графические алгоритмы для работы на Spark.
MLlib: Он содержит алгоритмы машинного обучения, которые обеспечивают среду машинного обучения в распределенной среде на основе памяти. Он выполняет итерационные алгоритмы эффективно благодаря возможности обработки данных в памяти.
SparkR: Spark предоставляет пакет R для запуска или анализа наборов данных с использованием оболочки R.

Существует три способа установить или развернуть искру в ваших системах:

Автономный режим в Apache Spark
Hadoop YARN / Mesos
SIMR (Искра в MapReduce)

Давайте посмотрим развертывание в автономном режиме.

Искровой автономный режим развертывания:

Шаг 1: Обновите индекс пакета

Это необходимо для обновления всех существующих пакетов на вашем компьютере.

Используйте команду : $ sudo apt-get update

Шаг 2: Установите Java Development Kit (JDK)

Это установит JDK на ваш компьютер и поможет вам запускать приложения Java.

Шаг 3: Проверьте, правильно ли установлена Java

Java является обязательным условием для использования или запуска Apache Spark Applications.

Используйте команду : $ java –version

Этот снимок экрана показывает версию Java и гарантирует наличие Java на компьютере.

Шаг 4: Установите Scala на свой компьютер

Так как Spark написан на scala, необходимо установить шкалу для запуска искры на вашем компьютере.

Используйте команду: $ sudo apt-get install scala

Шаг 5: Проверьте, правильно ли установлена Scala

Это обеспечит успешную установку весов в вашей системе.

Используйте команду : $ scala –version

Шаг 6: Загрузите Apache Spark

Загрузите Apache Spark в соответствии с вашей версией Hadoop с https://spark.apache.org/downloads.html

Когда вы перейдете по вышеуказанной ссылке, появится окно.

Шаг 7: Выберите подходящую версию в соответствии с вашей версией Hadoop и нажмите на ссылку, помеченную.

Появится другое окно.

Шаг 8: Нажмите на ссылку, помеченную, и Apache spark будет загружен в вашу систему.

Убедитесь, что файл .tar.gz доступен в папке загрузок.

Шаг 9: Установите Apache Spark

Для установки Spark файл tar должен быть извлечен.

Используйте команду: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz

Вы должны изменить версию, указанную в команде, в соответствии с загруженной версией. Для этого мы скачали версию spark-2.4.0-bin-hadoop2.7.

Шаг 10: Настройте переменную среды для Apache Spark

Используйте команду: $ source ~ / .bashrc

Добавить строку : экспорт PATH = $ PATH: / usr / local / spark / bin

Шаг 11: Проверьте установку Apache Spark

Используйте команду : $ spark-shell

Если установка прошла успешно, будет получен следующий вывод.

Это означает успешную установку Apache Spark на вашем компьютере, и Apache Spark запустится в Scala.

Развертывание Spark на Hadoop YARN:

Существует два режима развертывания Apache Spark на Hadoop YARN.

Режим кластера. В этом режиме YARN в кластере управляет драйвером Spark, который выполняется внутри главного процесса приложения. После запуска приложения клиент может перейти.
Режим клиента: в этом режиме ресурсы запрашиваются из YARN ведущим приложения, а драйвер Spark запускается в клиентском процессе.

Чтобы развернуть приложение Spark в режиме кластера, используйте команду:

$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar

Приведенная выше команда запустит клиентскую программу YARN, которая запустит мастер приложений по умолчанию.

Чтобы развернуть приложение Spark в режиме клиента, используйте команду:

$ spark-submit –master yarn –deploy –mode client mySparkApp.jar

Вы можете запустить spark shell в режиме клиента с помощью команды:

$ spark-shell –master yarn –deploy-mode client

Советы и хитрости по использованию спарк-установки:

Убедитесь, что на вашем компьютере установлена Java, прежде чем устанавливать spark.
Если вы используете язык Scala, убедитесь, что масштаб уже установлен, прежде чем использовать Apache Spark.
Вы также можете использовать Python вместо Scala для программирования в Spark, но он также должен быть предварительно установлен, как Scala.
Вы также можете запустить Apache Spark в Windows, но предлагается создать виртуальную машину и установить Ubuntu с помощью Oracle Virtual Box или VMWare Player .
Spark может работать без Hadoop (т. Е. В автономном режиме), но если требуется установка нескольких узлов, тогда необходимы менеджеры ресурсов, такие как YARN или Mesos.
При использовании YARN нет необходимости устанавливать Spark на всех трех узлах. Вы должны установить Apache Spark только на один узел.
При использовании YARN, если вы находитесь в одной локальной сети с кластером, вы можете использовать режим клиента, тогда как если вы находитесь далеко, то вы можете использовать режим кластера.

Установить Spark - Полное руководство по установке Spark

Содержание:

Как установить Spark?

Spark состоит из различных компонентов, которые называются Spark Ecosystem Components.