Как установить Apache

Перед тем, как приступить к установке части Apache, у нас будет общий обзор Apache и его использования в науке о данных.

Что такое Apache?

Apache Web Server - это HTTP-сервер, который представляет веб-сайты посетителям, которые приходят на ваш сервер. Поэтому, если вы хотите развернуть веб-сайт для бизнеса или вашей организации, вы, скорее всего, будете использовать Apache для этого.

Существуют и другие HTTP-серверы, такие как IIS, но Apache - это стандарт, который используют большинство людей, будь то в Linux, Windows или Mac. По умолчанию Apache используется большинством людей, потому что он хорошо известен, очень надежен и бесплатен.

Однако с Apache нужно понять одну вещь: поскольку это HTTP-сервер, поэтому, если вы установите его на Linux, Windows или Mac, все, что вам нужно сделать, это представить статические веб-сайты посетителям вашего сервера. Следовательно, если вы кодируете веб-сайт HTML без дополнительных языков программирования, кроме JavaScript, вы можете использовать его только с сервером Apache. Вы можете подключить все свои теги к серверу Apache и представить его своим посетителям.

Как Apache использовал в Data Science?

Наука Данных - самая востребованная область исследований в современном мире. Data Scientist считается самой сексуальной работой в 21-м веке, когда специалисты из разных дисциплин хотят учиться и стать Data Scientist. Apache играет решающую роль в любом энтузиасте науки о данных, так как им необходимы достаточные знания об экосистеме Apache Hadoop.

Apache Hadoop Ecosystem

Самое первое, что экосистема Hadoop - это не один инструмент. Это не язык программирования или отдельная структура. Это группа инструментов, которые используются различными компаниями в разных доменах для решения множества задач. Мы рассмотрим каждый инструмент один за другим ниже:

  • Apache HDFS (распределенная файловая система Hadoop) - это устройство хранения Hadoop, которое может хранить структурированные, полуструктурированные и неструктурированные данные. HDFS имеет метаданные, которые поддерживают файл журнала о сохраненных данных. Он состоит из двух компонентов - NameNode и DataNode.
  • Apache Yarn - это посредник ресурсов, который выполняет все операции обработки, такие как планирование задач, распределение ресурсов и т. Д. Он имеет две службы. Первая - это Resource Manager, который планирует приложения, работающие поверх Yarn. Второй - это Node Manager, который контролирует использование ресурсов .
  • Apache Map Reduce - это компонент обработки данных Hadoop, который обрабатывает большие наборы данных с использованием распределенных и параллельных вычислений на основе функций Map, Sort и Shuffle и Reduce. Функция карты фильтрует данные, затем выполняется сортировка и перемешивание, а в конце функция Уменьшения агрегирует и суммирует результат.
  • Apache Pig используется в основном в ETL. Он состоит из двух частей - Pig Latin и Pig runtime. Pig Latin - это язык, используемый для обработки данных с использованием запроса, тогда как Pig runtime - это среда выполнения. Одна строка Pig Latin почти равна 100 строкам кода Map Reduce. Процесс включает в себя сначала загрузить данные, а затем сгруппировать, отсортировать, отфильтровать и сохранить их в HDFS.
  • Apache Hive использует SQL-подобный запрос для анализа данных в распределенной среде. Он состоит из двух компонентов - командной строки Hive и сервера JDBC / ODBC, а используемый язык называется HiveQL.
  • Apache Mahout - это библиотека машинного обучения, написанная на Java и используемая для создания приложений машинного обучения, таких как кластеризация, классификация или регрессия. Он имеет разные алгоритмы, встроенные для разных случаев использования.
  • Apache HBase - это база данных NoSQL, написанная на Java, которая работает на Hadoop. Он построен на основе Google BigTable и способен обрабатывать все типы данных.
  • Apache Sqoop - это один из инструментов приема данных, который используется для объемной структурированной передачи данных между RDBMS и Hadoop.
  • Apache Flume - это еще один инструмент приема данных, который используется для передачи полуструктурированных и неструктурированных данных между Hadoop и другими источниками данных.
  • ZooKeeper является координатором, который обеспечивает координацию между различными инструментами в экосистеме Hadoop.
  • Apache Ambari - менеджер кластеров, который обеспечивает, управляет кластерами Hadoop, а также следит за их состоянием и состоянием.
  • Apache Tez - это новый инструмент в экосистеме Hadoop, который ускоряет обработку запросов Hadoop.
  • Apache Presto - это механизм распределенных SQL-запросов с открытым исходным кодом, который обеспечивает возможность межплатформенных запросов.
  • Apache HCatalog - это система управления метаданными и таблицами для Hadoop, которая обеспечивает взаимодействие между инструментами обработки данных. Это также помогает пользователям выбирать лучшие инструменты для своей среды.
  • Apache Spark является наиболее широко используемой и популярной средой среди Data Scientist. Это высокоскоростная кластерная вычислительная система, которая оптимизирует использование ресурсов в случае множества итерационных задач. Это дает гибкость как для пакетной обработки, так и для анализа данных в реальном времени.

Ниже приведены шаги для установки Apache

До сих пор мы узнали об Apache и о том, как он полезен для тех, кто хочет изучать Data Science или Big Data Analytics. Теперь мы углубимся и установим apache для окон, основываясь на следующих шагах.

  • Перейдите на https://httpd.apache.org/ и нажмите ссылку «Загрузить» в разделе «Выпущен Apache httpd 2.4.38».

  • Вы перейдете на следующую страницу и нажмите «Файлы для Microsoft Windows».

  • Нажмите на Apache Lounge.

  • Вы можете загрузить 32-разрядный или 64-разрядный файл ZIP в зависимости от операционной системы Windows. Мы будем загружать 64-битную версию здесь. Нажмите на соответствующую ссылку .zip для загрузки.

  • Теперь требуется C ++ Redistributable Visual Studio 2017. Поэтому мы будем загружать его по соответствующей 32-битной или 64-битной ссылке

  • После того, как оба файла были загружены, мы пойдем в загруженный каталог и сначала установим C ++ Redistributable Visual Studio 2017. Дважды щелкните файл .exe.

  • Проверьте «Я согласен» и нажмите «Установить».

  • Идет установка Apache.

  • Как только оно будет завершено, вы получите следующее сообщение. Нажмите Закрыть, чтобы завершить установку.

  • Теперь перейдите в папку, в которую вы загружаете zip-файл Apache. Щелкните правой кнопкой мыши и выберите извлечение здесь.

  • Теперь у нас будет создана папка Apache24. Скопируйте эту папку на диск C, а затем мы добавим путь к системным переменным среды.

Перейдите в Свойства системы -> вкладка «Дополнительно» -> нажмите кнопку «Переменные среды» ниже.

  • В разделе «Переменные» найдите «Путь» и нажмите «Изменить».

  • Нажмите «Обзор» -> «Перейти к диску C», папка Apache24 -> «Выбрать папку bin» -> «ОК».

  • Мы установим Apache в качестве службы Windows. Запустите командную строку от имени администратора. Введите httpd –k install и нажмите ввод.

  • Мы проверим установку службы Apache. Нажмите на значок Windows и введите службы. Нажмите на приложение Services и найдите сервис с именем Apache24.

  • Чтобы запустить сервер Apache, щелкните по нему правой кнопкой мыши и нажмите «Пуск». Статус изменится на «Бег».

  • Мы можем проверить с помощью браузера. Откройте браузер и перейдите по адресу http: // localhost и нажмите ввод. Сообщение с надписью "Это работает!" появится, чтобы подтвердить успешную установку Apache.

Рекомендуемые статьи

Это было руководство о том, как установить Apache. Здесь мы обсудили инструкции и различные шаги для установки Apache. Вы также можете посмотреть следующую статью, чтобы узнать больше -

  1. Apache Интервью Вопросы
  2. Апач Спарк против Апач Флинк
  3. Apache Hadoop против Apache Spark
  4. Апач Кафка против Флюм
  5. Кафка против Кинезис | Основные отличия