Обзор установки Hadoop

В следующей статье «Установка Hadoop» дается краткое описание наиболее распространенных ключевых модулей Hadoop и пошаговая установка Hadoop. Apache Hadoop представляет собой набор программного обеспечения, которое позволяет обрабатывать большие наборы данных и распределенное хранилище в кластере различных типов компьютерной системы. В настоящее время Hadoop остается наиболее широко используемой аналитической платформой для больших данных («Санчита Лобо, автор учебного блога по аналитике», nd).

Hadoop Framework

Платформа Apache Hadoop состоит из следующих ключевых модулей.

  • Apache Hadoop Common.
  • Распределенная файловая система Apache Hadoop (HDFS).
  • Apache Hadoop MapReduce
  • Apache Hadoop YARN (еще один менеджер ресурсов).

Apache Hadoop Common

Общий модуль Apache Hadoop состоит из общих библиотек, которые используются всеми другими модулями, включая управление ключами, универсальные пакеты ввода / вывода, библиотеки для сбора метрик и утилиты для реестра, безопасности и потоковой передачи.

HDFS

HDFS основана на файловой системе Google и структурирована для работы на недорогом оборудовании. HDFS устойчива к сбоям и предназначена для приложений, имеющих большие наборы данных.

Уменьшение карты

MapReduce - это модель параллельного программирования для обработки данных, и Hadoop может запускать программы MapReduce, написанные на разных языках, таких как Java. MapReduce работает путем разделения обработки на фазу карты и уменьшает фазу.

Apache Hadoop YARN

Apache Hadoop YARN является ключевым компонентом и представляет собой технологию управления ресурсами и планирования заданий в среде распределенной обработки Hadoop.

В этой статье мы обсудим установку и настройку Hadoop 2.7.4 на кластере с одним узлом и протестируем конфигурацию, запустив программу MapReduce под названием wordcount для подсчета количества слов в файле. Далее мы рассмотрим несколько важных команд файловой системы Hadoop.

Шаги по установке Hadoop

Ниже приводится краткое изложение задач, связанных с настройкой Apache Hadoop.

Задача 1. Первая задача установки Hadoop включала настройку шаблона виртуальной машины, который был настроен с помощью Cent OS7. Пакеты, такие как Java SDK 1.8 и Runtime Systems, необходимые для запуска Hadoop, были загружены, а переменная среды Java для Hadoop была настроена путем редактирования bash_rc.

Задача 2: Пакет Hadoop Release 2.7.4 был загружен с веб-сайта apache и извлечен в папку opt. Который затем был переименован в Hadoop для легкого доступа.

Задача 3: После того, как пакеты Hadoop были извлечены, следующий шаг включал в себя настройку переменной среды для пользователя Hadoop с последующей настройкой XML-файлов узла Hadoop. На этом шаге NameNode был настроен в core-site.xml, а DataNode - в hdfs-site.xml. Диспетчер ресурсов и диспетчер узлов были настроены в yarn-site.xml.

Задача 4: Брандмауэр был отключен для запуска YARN и DFS. Команда JPS использовалась, чтобы проверить, работают ли соответствующие фоны в фоновом режиме. Номер порта для доступа к Hadoop был настроен на http: // localhost: 50070 /

Задача 5: Следующие несколько шагов были использованы для проверки и тестирования Hadoop. Для этого мы создали временный тестовый файл во входном каталоге для программы WordCount. Программа Map-Reduce Hadoop-MapReduce-examples2.7.4.jar использовалась для подсчета количества слов в файле. Результаты были оценены на локальном хосте и проанализированы журналы поданной заявки. Все представленные приложения MapReduce можно просмотреть в онлайн-интерфейсе, номер порта по умолчанию - 8088.

Задача 6: В заключительной задаче мы представим некоторые основные команды файловой системы Hadoop и проверим их использование. Мы увидим, как можно создать каталог в файловой системе Hadoop, чтобы перечислить содержимое каталога, его размер в байтах. Далее мы увидим, как удалить конкретный каталог и файл.

Результаты в установке Hadoop

Ниже показаны результаты каждой из вышеуказанных задач:

Результат задания 1

Новая виртуальная машина с образом cenOS7 была настроена для запуска Apache Hadoop. На рисунке 1 показано, как образ CenOS 7 был настроен на виртуальной машине. На рисунке 1.2 показана конфигурация переменной среды JAVA в .bash_rc.

Рисунок 1: Конфигурация виртуальной машины

Рисунок 1.2: Конфигурация переменной среды Java

Результат Задачи 2

На рисунке 2 показана задача, выполняемая для извлечения пакета Hadoop 2.7.4 в папку opt.

Рисунок 2: Извлечение пакета Hadoop 2.7.4

Результат Задачи 3

На рисунке 3 показана конфигурация переменной среды для пользователя Hadoop, на рисунках с 3.1 по 3.4 показана конфигурация для файлов XML, необходимая для конфигурации Hadoop.

Рисунок 3: Настройка переменной среды для пользователя Hadoop

Рисунок 3.1: Конфигурация core-site.xml

Рисунок 3.2: Конфигурация hdfs-site.xml

Рисунок 3.3: Конфигурация файла mapred-site.xml

Рисунок 3.4: Конфигурация файла yarn-site.xml

Результат задания 4

На рисунке 4 показано использование команды jps для проверки работы соответствующих демонов в фоновом режиме, а на следующем рисунке показан интерактивный пользовательский интерфейс Hadoop.

Рисунок 4: команда jps для проверки запущенных демонов.

Рисунок 4.1: Доступ к онлайн-интерфейсу Hadoop через порт http://hadoop1.example.com:50070/

Результат Задачи 5

На рисунке 5 показан результат для программы MapReduce под названием wordcount, который подсчитывает количество слов в файле. На следующих двух рисунках показан онлайн-интерфейс менеджера ресурсов YARN для представленной задачи.

Рисунок 5: Результаты программы MapReduce

Рисунок 5.1: Поданное приложение Map-Reduce.

Рисунок 5.2: Журналы для отправленного приложения MapReduce.

Результат задания 6

На рисунке 6 показано, как создать каталог в файловой системе Hadoop и выполнить распечатку каталога hdfs.

Рисунок 6: Создание каталога в файловой системе Hadoop

На рисунке 6.1 показано, как поместить файл в распределенную файловую систему Hadoop, а на рисунке 6.2 показан созданный файл в каталоге dirB.

Рисунок 6.1: Создание файла в HDFS.

Рисунок 6.2: Новый файл создан.

Следующие несколько рисунков показывают, как составить список содержимого отдельных каталогов:

Рисунок 6.3: Содержание dirA

Рисунок 6.4: Содержание dirB

На следующем рисунке показано, как можно отобразить размер файла и каталога:

Рисунок 6.5: Отображение файла и размера каталога.

Удаление каталога или файла может быть легко выполнено командой -rm.

Рисунок 6.6: Удалить файл.

Вывод

Большие данные сыграли очень важную роль в формировании современного мирового рынка. Среда Hadoop облегчает жизнь аналитику данных при работе с большими наборами данных. Конфигурация Apache Hadoop была довольно простой, а интерактивный пользовательский интерфейс предоставил пользователю множество возможностей для настройки и управления приложением. Hadoop широко используется в организациях для хранения данных, анализа машинного обучения и резервного копирования данных. Управление большим объемом данных было очень удобно из-за распределенной среды Hadoop и MapReduce. Разработка Hadoop была довольно удивительной по сравнению с реляционными базами данных, поскольку в них отсутствуют параметры настройки и производительности. Apache Hadoop - это удобное и недорогое решение для эффективного управления и хранения больших данных. HDFS также помогает в хранении данных.

Рекомендуемые статьи

Это руководство по установке Hadoop. Здесь мы обсуждаем введение в Instal Hadoop, пошаговую установку Hadoop вместе с результатами установки Hadoop. Вы также можете просмотреть наши другие предлагаемые статьи, чтобы узнать больше -

  1. Введение в потоковую передачу Hadoop
  2. Что такое кластер Hadoop и как он работает?
  3. Apache Hadoop Ecosystem и ее компоненты
  4. Каковы альтернативы Hadoop?