Как установить улей?
Apache Hadoop - это набор платформ, который позволяет обрабатывать большие данные, распределенные по кластеру. Согласно Apache Hive - это проект программного обеспечения для хранилищ данных, построенный на основе Apache Hadoop для обеспечения запросов и анализа данных. Apache Hive предоставляет SQL-подобный интерфейс для запроса и обработки большого количества данных, называемых HQL (язык запросов Hive). Улей Apache работает поверх экосистемы Hadoop, а данные, хранящиеся в виде файлов, означают распределенную файловую систему Hadoop (HDFS). Apache Hive предоставляет пользователю удобный интерфейс для доступа к данным и выполнения операций над ними в виде таблицы, а также предоставляет отличную технику оптимизации для повышения производительности. Очень сложно сделать запрос быстрее с большими данными, и поверьте мне, это важно в производственной среде.
В серверной части компилятор преобразует HQL-запрос в задания по сокращению карты, а затем отправляет их в Hadoop для выполнения.
Разница между Hive и SQL
Apache Hive очень похож на SQL, но, как мы знаем, Hive работает поверх экосистемы Hadoop и внутренне конвертирует задания в MR (Map Reduce jobs), в этом есть некоторая разница между Hive и SQL.
Hive не будет лучшим подходом для тех приложений, где требуется очень быстрая реакция, и очень важно понимать, что Hive лучше подходит для пакетной обработки очень больших наборов неизменяемых данных, и мы должны отметить, что Hive - это обычная СУБД, и в прошлом но не в последнюю очередь Apache Hive - это схема на средстве чтения (при вставке данных в таблицу Hive он не будет беспокоиться о несоответствии типов данных, но при чтении данных он будет показывать нулевое значение, если тип данных не соответствует типу данных конкретного столбца).
Предварительное требование для установки Hive
Как я уже говорил ранее, очень важно понимать, что кусты Apache работают поверх Hadoop Ecosystem, и Hadoop должен быть запущен со всеми демонами.
Вот некоторые из основных демонов Hadoop:
- Имя узла
- Узел данных
- Менеджер ресурсов
- Менеджер узлов
Для проверки версии Hadoop ниже приведена команда:
Введите → Версия Hadoop в командной строке, чтобы получить версию Hadoop.
Чтобы проверить триггер отчета кластера Hadoop, выполните следующую команду:
Введите → Hadoop dfsadmin –report в командной строке, чтобы получить полный отчет о кластере, если ваш сервер работает.
Если Hadoop не установлен на вашем компьютере, просим вас следовать инструкциям apache для установки Hadoop в вашей системе.
Я надеюсь, что Java уже установлена в вашей системе. чтобы проверить версию Java, пожалуйста, смотрите ниже скриншот.
Шаги по установке Hive в Ubuntu
Ниже приведены инструкции по установке Hive в Ubuntu:
Шаг 1 : Hive tar, который мы можем загрузить, используя нижеприведенную команду в терминале, который мы также можем напрямую загрузить из терминала.
Команда: мы получаем http://archive.apache.org/dist/hive/hive-2.1.0/apache-hive-2.1.0-bin.tar.gz
Шаг 2 : Извлеките файл tar, используя в терминале следующую команду: мы можем извлечь файл tar непосредственно из загруженного файла tar hive.
Команда: tar -xzf apache-hive-2.1.0-bin.tar.gz
Я предлагаю вам проверить с помощью команды ls о извлеченном файле куста.
Шаг 3: Отредактируйте файл « .bashrc », чтобы обновить переменные среды для пользователя.
Команда: sudo .bashrc
Добавьте следующее в конец файла:
# Установить HIVE_HOME
Выполните приведенную ниже команду для завершения работы с изменениями в текущем терминале.
Команда: источник .bashrc
Шаг 5 : Нам нужно создать каталоги Hive в пределах местоположения HDFS, и этот каталог 'хранилище' будет местом хранения метаданных, связанных с таблицей улья, и данными, относящимися к Hive.
Команда :
- hdfs dfs -mkdir -p / пользователь / куст / склад
- hdfs dfs -mkdir / tmp
Шаг 6 : Чтобы установить разрешение на чтение и запись для таблицы улья, выполните команду ниже.
Команда:
В приведенной ниже команде, предоставляющей права на запись для группы пользователей:
- hdfs dfs -chmod g + w / пользователь / улей / склад
- hdfs dfs -chmod g + w / tmp
Конфигурирование куста: очень важно, чтобы точка установки была настроена с помощью Hadoop. Нам нужно отредактировать файл hive-env.sh, который находится в каталоге $ HIVE_HOME / conf. Следующие команды перенаправляют в папку Hive Conf и копируют файл шаблона:
Шаг 7 : Установите путь Hadoop в hive-env.sh
Отредактируйте файл hive-env.sh, добавив следующую строку:
Теперь с помощью этого процесса мы почти закончили, и установка кустов была успешно завершена, важно настроить Metastore с внешним сервером базы данных, и по умолчанию среда Apache Hive использует базу данных Derby. Используя нижеприведенную команду Initializing Derby database.
Команда: bin / schematool -initSchema -dbType derby
Шаг 8 : Запустите Улей .
Команда: улей (введите улей в терминале во втором терминале улья.)
Работа с Hive: Теперь мы увидим некоторые операции в кусте, чтобы увидеть, сколько таблиц в базе данных по умолчанию мы используем, см. Скриншоты ниже, на скриншотах ниже: таблицы не показаны, значит у нас нет таблиц в базе данных по умолчанию,
Чтобы создать таблицу в улье, очень важно обратиться к необходимой базе данных, иначе любая таблица будет создана в базе данных по умолчанию.
Важные команды в Hive
1: показать базы данных (будут показаны все базы данных, которые были созданы до сих пор).
2: создайте базу данных, если ее не существует mydb (эта команда создаст одну базу данных с именем « mydb», если « mydb» не существует и если « mydb уже существует, она также не выдаст никакой ошибки»)
3: использовать базу данных всякий раз, когда нам нужно использовать какую-либо команду DDl для конкретной базы данных, мы должны использовать команду «использовать базу данных», в нашем случае мы уже создали «mydb». Команда показа будет использовать mydb.
Важная команда Hive DDL
СОЗДАЙТЕ, УБРАТЬ, ПЕРЕХОДИТЬ, ШОУ, ОПИСАТЬ .
- Создать : - Создать оператор, используемый для создания базы данных или таблицы в кусте.
Пример: hive> создать базу данных Company; (создание базы данных)
Улей> использовать компанию;
Hive> создать таблицу сотрудника (id int, name String, salary String); (это создаст таблицу employee в базе данных Company, потому что мы уже выполнили команду Use database.)
- Опишите, предоставьте информацию о схеме таблицы.
Улей> опишите работника; (это даст подробную информацию о схеме таблицы сотрудников)
- TRUNCATE удалит данные таблицы.
Улей> усеченный стол сотрудника;
Мы также можем установить Hive в окне, но для лучшей практики я предпочту использовать Ubuntu, это даст лучшее представление о производственной среде, и ваши данные в будущем увеличатся, и ими будет легко управлять.
Рекомендуемые статьи
Это было руководство по установке Hive. Здесь мы обсудили различные шаги для установки Hive, команды DDL и т. Д. Вы также можете посмотреть следующие статьи, чтобы узнать больше:
- Как установить SQL Server
- Как установить MATLAB
- Команды Hive и особенность
- Основные вопросы интервью улей
- Улей Архитектура | WorkFlow
- Использование функции ORDER BY в Hive
- Улей Установка