Обзор установки Hadoop
В следующей статье «Установка Hadoop» дается краткое описание наиболее распространенных ключевых модулей Hadoop и пошаговая установка Hadoop. Apache Hadoop представляет собой набор программного обеспечения, которое позволяет обрабатывать большие наборы данных и распределенное хранилище в кластере различных типов компьютерной системы. В настоящее время Hadoop остается наиболее широко используемой аналитической платформой для больших данных («Санчита Лобо, автор учебного блога по аналитике», nd).
Hadoop Framework
Платформа Apache Hadoop состоит из следующих ключевых модулей.
- Apache Hadoop Common.
- Распределенная файловая система Apache Hadoop (HDFS).
- Apache Hadoop MapReduce
- Apache Hadoop YARN (еще один менеджер ресурсов).
Apache Hadoop Common
Общий модуль Apache Hadoop состоит из общих библиотек, которые используются всеми другими модулями, включая управление ключами, универсальные пакеты ввода / вывода, библиотеки для сбора метрик и утилиты для реестра, безопасности и потоковой передачи.
HDFS
HDFS основана на файловой системе Google и структурирована для работы на недорогом оборудовании. HDFS устойчива к сбоям и предназначена для приложений, имеющих большие наборы данных.
Уменьшение карты
MapReduce - это модель параллельного программирования для обработки данных, и Hadoop может запускать программы MapReduce, написанные на разных языках, таких как Java. MapReduce работает путем разделения обработки на фазу карты и уменьшает фазу.
Apache Hadoop YARN
Apache Hadoop YARN является ключевым компонентом и представляет собой технологию управления ресурсами и планирования заданий в среде распределенной обработки Hadoop.
В этой статье мы обсудим установку и настройку Hadoop 2.7.4 на кластере с одним узлом и протестируем конфигурацию, запустив программу MapReduce под названием wordcount для подсчета количества слов в файле. Далее мы рассмотрим несколько важных команд файловой системы Hadoop.
Шаги по установке Hadoop
Ниже приводится краткое изложение задач, связанных с настройкой Apache Hadoop.
Задача 1. Первая задача установки Hadoop включала настройку шаблона виртуальной машины, который был настроен с помощью Cent OS7. Пакеты, такие как Java SDK 1.8 и Runtime Systems, необходимые для запуска Hadoop, были загружены, а переменная среды Java для Hadoop была настроена путем редактирования bash_rc.
Задача 2: Пакет Hadoop Release 2.7.4 был загружен с веб-сайта apache и извлечен в папку opt. Который затем был переименован в Hadoop для легкого доступа.
Задача 3: После того, как пакеты Hadoop были извлечены, следующий шаг включал в себя настройку переменной среды для пользователя Hadoop с последующей настройкой XML-файлов узла Hadoop. На этом шаге NameNode был настроен в core-site.xml, а DataNode - в hdfs-site.xml. Диспетчер ресурсов и диспетчер узлов были настроены в yarn-site.xml.
Задача 4: Брандмауэр был отключен для запуска YARN и DFS. Команда JPS использовалась, чтобы проверить, работают ли соответствующие фоны в фоновом режиме. Номер порта для доступа к Hadoop был настроен на http: // localhost: 50070 /
Задача 5: Следующие несколько шагов были использованы для проверки и тестирования Hadoop. Для этого мы создали временный тестовый файл во входном каталоге для программы WordCount. Программа Map-Reduce Hadoop-MapReduce-examples2.7.4.jar использовалась для подсчета количества слов в файле. Результаты были оценены на локальном хосте и проанализированы журналы поданной заявки. Все представленные приложения MapReduce можно просмотреть в онлайн-интерфейсе, номер порта по умолчанию - 8088.
Задача 6: В заключительной задаче мы представим некоторые основные команды файловой системы Hadoop и проверим их использование. Мы увидим, как можно создать каталог в файловой системе Hadoop, чтобы перечислить содержимое каталога, его размер в байтах. Далее мы увидим, как удалить конкретный каталог и файл.
Результаты в установке Hadoop
Ниже показаны результаты каждой из вышеуказанных задач:
Результат задания 1
Новая виртуальная машина с образом cenOS7 была настроена для запуска Apache Hadoop. На рисунке 1 показано, как образ CenOS 7 был настроен на виртуальной машине. На рисунке 1.2 показана конфигурация переменной среды JAVA в .bash_rc.
Рисунок 1: Конфигурация виртуальной машины
Рисунок 1.2: Конфигурация переменной среды Java
Результат Задачи 2
На рисунке 2 показана задача, выполняемая для извлечения пакета Hadoop 2.7.4 в папку opt.
Рисунок 2: Извлечение пакета Hadoop 2.7.4
Результат Задачи 3
На рисунке 3 показана конфигурация переменной среды для пользователя Hadoop, на рисунках с 3.1 по 3.4 показана конфигурация для файлов XML, необходимая для конфигурации Hadoop.
Рисунок 3: Настройка переменной среды для пользователя Hadoop
Рисунок 3.1: Конфигурация core-site.xml
Рисунок 3.2: Конфигурация hdfs-site.xml
Рисунок 3.3: Конфигурация файла mapred-site.xml
Рисунок 3.4: Конфигурация файла yarn-site.xml
Результат задания 4
На рисунке 4 показано использование команды jps для проверки работы соответствующих демонов в фоновом режиме, а на следующем рисунке показан интерактивный пользовательский интерфейс Hadoop.
Рисунок 4: команда jps для проверки запущенных демонов.
Рисунок 4.1: Доступ к онлайн-интерфейсу Hadoop через порт http://hadoop1.example.com:50070/
Результат Задачи 5
На рисунке 5 показан результат для программы MapReduce под названием wordcount, который подсчитывает количество слов в файле. На следующих двух рисунках показан онлайн-интерфейс менеджера ресурсов YARN для представленной задачи.
Рисунок 5: Результаты программы MapReduce
Рисунок 5.1: Поданное приложение Map-Reduce.
Рисунок 5.2: Журналы для отправленного приложения MapReduce.
Результат задания 6
На рисунке 6 показано, как создать каталог в файловой системе Hadoop и выполнить распечатку каталога hdfs.
Рисунок 6: Создание каталога в файловой системе Hadoop
На рисунке 6.1 показано, как поместить файл в распределенную файловую систему Hadoop, а на рисунке 6.2 показан созданный файл в каталоге dirB.
Рисунок 6.1: Создание файла в HDFS.
Рисунок 6.2: Новый файл создан.
Следующие несколько рисунков показывают, как составить список содержимого отдельных каталогов:
Рисунок 6.3: Содержание dirA
Рисунок 6.4: Содержание dirB
На следующем рисунке показано, как можно отобразить размер файла и каталога:
Рисунок 6.5: Отображение файла и размера каталога.
Удаление каталога или файла может быть легко выполнено командой -rm.
Рисунок 6.6: Удалить файл.
Вывод
Большие данные сыграли очень важную роль в формировании современного мирового рынка. Среда Hadoop облегчает жизнь аналитику данных при работе с большими наборами данных. Конфигурация Apache Hadoop была довольно простой, а интерактивный пользовательский интерфейс предоставил пользователю множество возможностей для настройки и управления приложением. Hadoop широко используется в организациях для хранения данных, анализа машинного обучения и резервного копирования данных. Управление большим объемом данных было очень удобно из-за распределенной среды Hadoop и MapReduce. Разработка Hadoop была довольно удивительной по сравнению с реляционными базами данных, поскольку в них отсутствуют параметры настройки и производительности. Apache Hadoop - это удобное и недорогое решение для эффективного управления и хранения больших данных. HDFS также помогает в хранении данных.
Рекомендуемые статьи
Это руководство по установке Hadoop. Здесь мы обсуждаем введение в Instal Hadoop, пошаговую установку Hadoop вместе с результатами установки Hadoop. Вы также можете просмотреть наши другие предлагаемые статьи, чтобы узнать больше -
- Введение в потоковую передачу Hadoop
- Что такое кластер Hadoop и как он работает?
- Apache Hadoop Ecosystem и ее компоненты
- Каковы альтернативы Hadoop?