Введение в Hadoop Schedulers
Когда мы говорим о Hadoop, первое, что приходит в голову, - это большие данные. Но мы когда-нибудь задавались вопросом, что Hadoop сам по себе является не просто технологией, он включает в себя множество инструментов и методов внутри него, так как именно мы можем достичь того, что задумано с помощью Hadoop автоматически. Ответ на этот вопрос заключается в использовании планировщиков Hadoop.
Он обеспечивает высокий уровень обработки системы, а также известен как универсальная система, которая действует на уровне распространения набора данных и информации. Это многозадачная система, которая используется для обработки нескольких наборов данных для множества пользователей и заданий одновременно. Ранее для всех задач использовался только один планировщик, но теперь планировщики Hadoop используются вместе с логикой JobTracker и также поддерживаются Hadoop.
Лучшие 4 типа планировщиков Hadoop
Существует несколько типов планировщиков Hadoop, которые мы часто используем:
1. Планировщик Hadoop First in First
- Как следует из названия, это один из старейших графиков работы, который работает по принципу «первым пришел - первым вышел». По сути, когда мы говорим о процессе, таком как в JobTracker, мы говорим о извлечении заданий из очереди, которая часто называется рабочей очередью.
- В соответствии с этой рабочей очередью, задание, которое является самым старым, то есть первым, будет выполнено первым.
- Считалось, что это всегда намного более простой подход, чем другие методы планирования, и поэтому не уделялось большого внимания его использованию, чтобы найти новые подходы с лучшими возможностями планирования, поскольку они также включали в себя концепции определения размеров и приоритета работы.
2. Hadoop Capacity Scheduler
- Планировщик Hadoop Capacity более или менее похож на подход FIFO, за исключением того, что он также использует приоритеты работы. Этот подход немного отличается, когда мы говорим о многопользовательском уровне планирования.
- Известно, что он предназначен для планирования и моделирования отдельного кластера MapReduce для каждой организации или пользователя, что выполняется вместе с типом расписания FIFO.
3. Hadoop Fair Type Scheduler
- Когда возникает необходимость предоставить отдельное и разумное количество емкости кластера со временем и периодом, мы используем честный планировщик Hadoop. Это полезно для получения всех кластеров, даже если конкретное задание находится в рабочем состоянии.
- Более того, все свободные слоты кластера предоставляются всем заданиям таким образом, что каждый пользователь получает нормированную долю части своего кластера, так как все больше заданий становятся полезными для отправки.
- Если есть пул, который еще не получил свою часть справедливой доли и нормализованной доли в течение достаточно хорошего периода времени и периода, то в игру вступает вытеснение, что приводит к уничтожению всех объединенных задач и выполнению с возможностью предоставить этот пул слоты для запуска под емкость.
- Кроме того, это также известно как модуль contrib, который означает, что путем копирования каталога Hadoop, основанного на управлении и справедливом планировщике, в каталог на основе lib и размещения файла JAR в соответствующем месте, эта техника планирования может быть включена. Единственное, что нужно сделать, это установить свойство планировщика задач в mapred.FairScheduler.
4. Другие подходы к планировщику
- Hadoop гарантирует предоставление виртуальных кластеров, что означает, что потребность в наличии физических фактических кластеров может быть минимизирована, и этот метод известен как HOD (Hadoop on Demand).
- Он использует диспетчер ресурсов, основанный на Torque, для поддержания работы узлов и их распределения по требованию виртуального кластера.
- Он используется для инициализации нагрузки и системы, которая основана на конкретных узлах внутри виртуального, а не физического кластера, а также вместе с выделенными узлами, только после автоматической подготовки файлов конфигурации.
- Кластер HOD также может быть использован относительно независимым образом после инициализации. В двух словах, модель в двух словах, которая используется для развертывания этих больших кластеров Hadoop, находится в облачной инфраструктуре, и это то, что называется HOD. Он сравнительно совместно использует меньшее количество узлов и, следовательно, обеспечивает более высокий уровень безопасности.
Важность использования планировщиков Hadoop
- Из типов планировщиков Hadoop должно быть ясно, в чем заключается важность использования этих планировщиков Hadoop. Если вы используете большой кластер с разными типами заданий, разными приоритетами и размерами, а также с несколькими клиентами, тогда выбор правильного планировщика Hadoop станет важным.
- Это важно, поскольку оно обеспечивает гарантированный доступ к неиспользованному уровню емкости и оптимальное использование ресурсов благодаря эффективному расстановке приоритетов заданий в очередях. Несмотря на то, что эта часть планировщиков Hadoop сравнительно проста, так как использование честных планировщиков в большинстве случаев является правильным выбором, если существует разница между количеством и типами кластеров, работающих в одной организации.
- Этот честный планировщик все еще может использоваться для обеспечения и неравномерного распределения емкости пула заданий, и это делается гораздо более простым и настраиваемым способом. Честный планировщик также приходит нам на помощь, когда мы говорим о наличии диверсифицированных видов рабочих мест, поскольку его можно использовать для обеспечения более высокого времени отклика для сравнительно небольших заданий, которые смешиваются с более крупными видами работ, и их поддержка включена в интерактивное использование моделей.
- Планировщики емкости полезны, когда вас больше интересуют очереди, а не уровень созданных пулов, а также доступность настраиваемого уровня карты и слотов типа сокращения заданий, и очередь может позволить себе получить гарантированную емкость кластера.
Вывод
В этом посте мы читаем о планировщиках Hadoop, их значении, введении, типах планировщиков Hadoop, их функциях, а также узнаем о важности этих планировщиков Hadoop. Когда речь идет об экосистеме и среде больших данных, планировщики Hadoop - это то, о чем часто не говорят, но они имеют огромное значение и не могут быть оставлены без изменений. Надеюсь, вам понравилась наша статья.
Рекомендуемые статьи
Это руководство для Hadoop Schedulers. Здесь мы обсуждаем введение и топ 4 типов планировщика Hadoop с важностью его использования. Вы также можете посмотреть следующие статьи, чтобы узнать больше
- Компоненты Swing в Java
- JTabbedPane в Java
- Защищенное ключевое слово в Java
- JTextArea в Java