Установить Hadoop - Как установить Hadoop с пошаговой настройкой

Обзор установки Hadoop

В следующей статье «Установка Hadoop» дается краткое описание наиболее распространенных ключевых модулей Hadoop и пошаговая установка Hadoop. Apache Hadoop представляет собой набор программного обеспечения, которое позволяет обрабатывать большие наборы данных и распределенное хранилище в кластере различных типов компьютерной системы. В настоящее время Hadoop остается наиболее широко используемой аналитической платформой для больших данных («Санчита Лобо, автор учебного блога по аналитике», nd).

Hadoop Framework

Платформа Apache Hadoop состоит из следующих ключевых модулей.

Apache Hadoop Common.
Распределенная файловая система Apache Hadoop (HDFS).
Apache Hadoop MapReduce
Apache Hadoop YARN (еще один менеджер ресурсов).

Apache Hadoop Common

Общий модуль Apache Hadoop состоит из общих библиотек, которые используются всеми другими модулями, включая управление ключами, универсальные пакеты ввода / вывода, библиотеки для сбора метрик и утилиты для реестра, безопасности и потоковой передачи.

HDFS

HDFS основана на файловой системе Google и структурирована для работы на недорогом оборудовании. HDFS устойчива к сбоям и предназначена для приложений, имеющих большие наборы данных.

Уменьшение карты

MapReduce - это модель параллельного программирования для обработки данных, и Hadoop может запускать программы MapReduce, написанные на разных языках, таких как Java. MapReduce работает путем разделения обработки на фазу карты и уменьшает фазу.

Apache Hadoop YARN

Apache Hadoop YARN является ключевым компонентом и представляет собой технологию управления ресурсами и планирования заданий в среде распределенной обработки Hadoop.

В этой статье мы обсудим установку и настройку Hadoop 2.7.4 на кластере с одним узлом и протестируем конфигурацию, запустив программу MapReduce под названием wordcount для подсчета количества слов в файле. Далее мы рассмотрим несколько важных команд файловой системы Hadoop.

Шаги по установке Hadoop

Ниже приводится краткое изложение задач, связанных с настройкой Apache Hadoop.

Задача 1. Первая задача установки Hadoop включала настройку шаблона виртуальной машины, который был настроен с помощью Cent OS7. Пакеты, такие как Java SDK 1.8 и Runtime Systems, необходимые для запуска Hadoop, были загружены, а переменная среды Java для Hadoop была настроена путем редактирования bash_rc.

Задача 2: Пакет Hadoop Release 2.7.4 был загружен с веб-сайта apache и извлечен в папку opt. Который затем был переименован в Hadoop для легкого доступа.

Задача 3: После того, как пакеты Hadoop были извлечены, следующий шаг включал в себя настройку переменной среды для пользователя Hadoop с последующей настройкой XML-файлов узла Hadoop. На этом шаге NameNode был настроен в core-site.xml, а DataNode - в hdfs-site.xml. Диспетчер ресурсов и диспетчер узлов были настроены в yarn-site.xml.

Задача 4: Брандмауэр был отключен для запуска YARN и DFS. Команда JPS использовалась, чтобы проверить, работают ли соответствующие фоны в фоновом режиме. Номер порта для доступа к Hadoop был настроен на http: // localhost: 50070 /

Задача 5: Следующие несколько шагов были использованы для проверки и тестирования Hadoop. Для этого мы создали временный тестовый файл во входном каталоге для программы WordCount. Программа Map-Reduce Hadoop-MapReduce-examples2.7.4.jar использовалась для подсчета количества слов в файле. Результаты были оценены на локальном хосте и проанализированы журналы поданной заявки. Все представленные приложения MapReduce можно просмотреть в онлайн-интерфейсе, номер порта по умолчанию - 8088.

Задача 6: В заключительной задаче мы представим некоторые основные команды файловой системы Hadoop и проверим их использование. Мы увидим, как можно создать каталог в файловой системе Hadoop, чтобы перечислить содержимое каталога, его размер в байтах. Далее мы увидим, как удалить конкретный каталог и файл.

Результаты в установке Hadoop

Ниже показаны результаты каждой из вышеуказанных задач:

Результат задания 1

Новая виртуальная машина с образом cenOS7 была настроена для запуска Apache Hadoop. На рисунке 1 показано, как образ CenOS 7 был настроен на виртуальной машине. На рисунке 1.2 показана конфигурация переменной среды JAVA в .bash_rc.

Рисунок 1: Конфигурация виртуальной машины

Рисунок 1.2: Конфигурация переменной среды Java

Результат Задачи 2

На рисунке 2 показана задача, выполняемая для извлечения пакета Hadoop 2.7.4 в папку opt.

Рисунок 2: Извлечение пакета Hadoop 2.7.4

Результат Задачи 3

На рисунке 3 показана конфигурация переменной среды для пользователя Hadoop, на рисунках с 3.1 по 3.4 показана конфигурация для файлов XML, необходимая для конфигурации Hadoop.

Рисунок 3: Настройка переменной среды для пользователя Hadoop

Рисунок 3.1: Конфигурация core-site.xml

Рисунок 3.2: Конфигурация hdfs-site.xml

Рисунок 3.3: Конфигурация файла mapred-site.xml

Рисунок 3.4: Конфигурация файла yarn-site.xml

Результат задания 4

На рисунке 4 показано использование команды jps для проверки работы соответствующих демонов в фоновом режиме, а на следующем рисунке показан интерактивный пользовательский интерфейс Hadoop.

Рисунок 4: команда jps для проверки запущенных демонов.

Рисунок 4.1: Доступ к онлайн-интерфейсу Hadoop через порт http://hadoop1.example.com:50070/

Результат Задачи 5

На рисунке 5 показан результат для программы MapReduce под названием wordcount, который подсчитывает количество слов в файле. На следующих двух рисунках показан онлайн-интерфейс менеджера ресурсов YARN для представленной задачи.

Рисунок 5: Результаты программы MapReduce

Рисунок 5.1: Поданное приложение Map-Reduce.

Рисунок 5.2: Журналы для отправленного приложения MapReduce.

Результат задания 6

На рисунке 6 показано, как создать каталог в файловой системе Hadoop и выполнить распечатку каталога hdfs.

Рисунок 6: Создание каталога в файловой системе Hadoop

На рисунке 6.1 показано, как поместить файл в распределенную файловую систему Hadoop, а на рисунке 6.2 показан созданный файл в каталоге dirB.

Рисунок 6.1: Создание файла в HDFS.

Рисунок 6.2: Новый файл создан.

Следующие несколько рисунков показывают, как составить список содержимого отдельных каталогов:

Рисунок 6.3: Содержание dirA

Рисунок 6.4: Содержание dirB

На следующем рисунке показано, как можно отобразить размер файла и каталога:

Рисунок 6.5: Отображение файла и размера каталога.

Удаление каталога или файла может быть легко выполнено командой -rm.

Рисунок 6.6: Удалить файл.

Вывод

Большие данные сыграли очень важную роль в формировании современного мирового рынка. Среда Hadoop облегчает жизнь аналитику данных при работе с большими наборами данных. Конфигурация Apache Hadoop была довольно простой, а интерактивный пользовательский интерфейс предоставил пользователю множество возможностей для настройки и управления приложением. Hadoop широко используется в организациях для хранения данных, анализа машинного обучения и резервного копирования данных. Управление большим объемом данных было очень удобно из-за распределенной среды Hadoop и MapReduce. Разработка Hadoop была довольно удивительной по сравнению с реляционными базами данных, поскольку в них отсутствуют параметры настройки и производительности. Apache Hadoop - это удобное и недорогое решение для эффективного управления и хранения больших данных. HDFS также помогает в хранении данных.

Установить Hadoop - Как установить Hadoop с пошаговой настройкой

Содержание:

Обзор установки Hadoop

Hadoop Framework

Apache Hadoop Common

HDFS

Уменьшение карты

Apache Hadoop YARN

Шаги по установке Hadoop

Результаты в установке Hadoop

Результат задания 1

Результат Задачи 2

Результат Задачи 3

Результат задания 4

Результат Задачи 5

Результат задания 6

Вывод

Рекомендуемые статьи

WordPress против Drupal - узнай 8 лучших отличий

Wordpress против Django - какой из них полезнее (Инфографика)

WordPress против Magento - узнайте 5 главных полезных отличий

WordPress vs Shopify - 8 самых удивительных отличий для изучения

WordPress против Joomla - Узнайте 6 самых удивительных сравнений

Шесть Сигма Процесс - Полное руководство по шести сигма-процессу

Шесть Сигма Модель - Изучите методологии шести сигм

Шесть Сигма Проект - Полное руководство по проекту Six Sigma

Пример проекта Six Sigma - Основные примеры проекта Six Sigma

Устав проекта Six Sigma - Структурирование Хартии проекта Six Sigma

Free Transform в Photoshop CC 2019 - Полное руководство

Как создать текстовый эффект Spray Paint в Photoshop

Создать звездное ночное небо в фотошопе

Пиксели, размер изображения и разрешение изображения в фотошопе

Эффект эскиза фото к карандашу в учебнике по Photoshop CC