Как установить улей?

Apache Hadoop - это набор платформ, который позволяет обрабатывать большие данные, распределенные по кластеру. Согласно Apache Hive - это проект программного обеспечения для хранилищ данных, построенный на основе Apache Hadoop для обеспечения запросов и анализа данных. Apache Hive предоставляет SQL-подобный интерфейс для запроса и обработки большого количества данных, называемых HQL (язык запросов Hive). Улей Apache работает поверх экосистемы Hadoop, а данные, хранящиеся в виде файлов, означают распределенную файловую систему Hadoop (HDFS). Apache Hive предоставляет пользователю удобный интерфейс для доступа к данным и выполнения операций над ними в виде таблицы, а также предоставляет отличную технику оптимизации для повышения производительности. Очень сложно сделать запрос быстрее с большими данными, и поверьте мне, это важно в производственной среде.

В серверной части компилятор преобразует HQL-запрос в задания по сокращению карты, а затем отправляет их в Hadoop для выполнения.

Разница между Hive и SQL

Apache Hive очень похож на SQL, но, как мы знаем, Hive работает поверх экосистемы Hadoop и внутренне конвертирует задания в MR (Map Reduce jobs), в этом есть некоторая разница между Hive и SQL.

Hive не будет лучшим подходом для тех приложений, где требуется очень быстрая реакция, и очень важно понимать, что Hive лучше подходит для пакетной обработки очень больших наборов неизменяемых данных, и мы должны отметить, что Hive - это обычная СУБД, и в прошлом но не в последнюю очередь Apache Hive - это схема на средстве чтения (при вставке данных в таблицу Hive он не будет беспокоиться о несоответствии типов данных, но при чтении данных он будет показывать нулевое значение, если тип данных не соответствует типу данных конкретного столбца).

Предварительное требование для установки Hive

Как я уже говорил ранее, очень важно понимать, что кусты Apache работают поверх Hadoop Ecosystem, и Hadoop должен быть запущен со всеми демонами.

Вот некоторые из основных демонов Hadoop:

  • Имя узла
  • Узел данных
  • Менеджер ресурсов
  • Менеджер узлов

Для проверки версии Hadoop ниже приведена команда:

Введите → Версия Hadoop в командной строке, чтобы получить версию Hadoop.

Чтобы проверить триггер отчета кластера Hadoop, выполните следующую команду:

Введите → Hadoop dfsadmin –report в командной строке, чтобы получить полный отчет о кластере, если ваш сервер работает.

Если Hadoop не установлен на вашем компьютере, просим вас следовать инструкциям apache для установки Hadoop в вашей системе.

Я надеюсь, что Java уже установлена ​​в вашей системе. чтобы проверить версию Java, пожалуйста, смотрите ниже скриншот.

Шаги по установке Hive в Ubuntu

Ниже приведены инструкции по установке Hive в Ubuntu:

Шаг 1 : Hive tar, который мы можем загрузить, используя нижеприведенную команду в терминале, который мы также можем напрямую загрузить из терминала.

Команда: мы получаем http://archive.apache.org/dist/hive/hive-2.1.0/apache-hive-2.1.0-bin.tar.gz

Шаг 2 : Извлеките файл tar, используя в терминале следующую команду: мы можем извлечь файл tar непосредственно из загруженного файла tar hive.

Команда: tar -xzf apache-hive-2.1.0-bin.tar.gz

Я предлагаю вам проверить с помощью команды ls о извлеченном файле куста.

Шаг 3: Отредактируйте файл « .bashrc », чтобы обновить переменные среды для пользователя.

Команда: sudo .bashrc

Добавьте следующее в конец файла:

# Установить HIVE_HOME

Выполните приведенную ниже команду для завершения работы с изменениями в текущем терминале.

Команда: источник .bashrc

Шаг 5 : Нам нужно создать каталоги Hive в пределах местоположения HDFS, и этот каталог 'хранилище' будет местом хранения метаданных, связанных с таблицей улья, и данными, относящимися к Hive.

Команда :

  • hdfs dfs -mkdir -p / пользователь / куст / склад
  • hdfs dfs -mkdir / tmp

Шаг 6 : Чтобы установить разрешение на чтение и запись для таблицы улья, выполните команду ниже.

Команда:

В приведенной ниже команде, предоставляющей права на запись для группы пользователей:

  • hdfs dfs -chmod g + w / пользователь / улей / склад
  • hdfs dfs -chmod g + w / tmp

Конфигурирование куста: очень важно, чтобы точка установки была настроена с помощью Hadoop. Нам нужно отредактировать файл hive-env.sh, который находится в каталоге $ HIVE_HOME / conf. Следующие команды перенаправляют в папку Hive Conf и копируют файл шаблона:

Шаг 7 : Установите путь Hadoop в hive-env.sh

Отредактируйте файл hive-env.sh, добавив следующую строку:

Теперь с помощью этого процесса мы почти закончили, и установка кустов была успешно завершена, важно настроить Metastore с внешним сервером базы данных, и по умолчанию среда Apache Hive использует базу данных Derby. Используя нижеприведенную команду Initializing Derby database.

Команда: bin / schematool -initSchema -dbType derby

Шаг 8 : Запустите Улей .

Команда: улей (введите улей в терминале во втором терминале улья.)

Работа с Hive: Теперь мы увидим некоторые операции в кусте, чтобы увидеть, сколько таблиц в базе данных по умолчанию мы используем, см. Скриншоты ниже, на скриншотах ниже: таблицы не показаны, значит у нас нет таблиц в базе данных по умолчанию,

Чтобы создать таблицу в улье, очень важно обратиться к необходимой базе данных, иначе любая таблица будет создана в базе данных по умолчанию.

Важные команды в Hive

1: показать базы данных (будут показаны все базы данных, которые были созданы до сих пор).

2: создайте базу данных, если ее не существует mydb (эта команда создаст одну базу данных с именем « mydb», если « mydb» не существует и если « mydb уже существует, она также не выдаст никакой ошибки»)

3: использовать базу данных всякий раз, когда нам нужно использовать какую-либо команду DDl для конкретной базы данных, мы должны использовать команду «использовать базу данных», в нашем случае мы уже создали «mydb». Команда показа будет использовать mydb.

Важная команда Hive DDL

СОЗДАЙТЕ, УБРАТЬ, ПЕРЕХОДИТЬ, ШОУ, ОПИСАТЬ .

  • Создать : - Создать оператор, используемый для создания базы данных или таблицы в кусте.

Пример: hive> создать базу данных Company; (создание базы данных)

Улей> использовать компанию;

Hive> создать таблицу сотрудника (id int, name String, salary String); (это создаст таблицу employee в базе данных Company, потому что мы уже выполнили команду Use database.)

  • Опишите, предоставьте информацию о схеме таблицы.

Улей> опишите работника; (это даст подробную информацию о схеме таблицы сотрудников)

  • TRUNCATE удалит данные таблицы.

Улей> усеченный стол сотрудника;

Мы также можем установить Hive в окне, но для лучшей практики я предпочту использовать Ubuntu, это даст лучшее представление о производственной среде, и ваши данные в будущем увеличатся, и ими будет легко управлять.

Рекомендуемые статьи

Это было руководство по установке Hive. Здесь мы обсудили различные шаги для установки Hive, команды DDL и т. Д. Вы также можете посмотреть следующие статьи, чтобы узнать больше:

  1. Как установить SQL Server
  2. Как установить MATLAB
  3. Команды Hive и особенность
  4. Основные вопросы интервью улей
  5. Улей Архитектура | WorkFlow
  6. Использование функции ORDER BY в Hive
  7. Улей Установка