Карьера в Hadoop - Введение

Hadoop - это не просто фреймворк в мире больших данных. У этого есть широкая экосистема с зонтиком связанных технологий. По той же причине, карьера в Hadoop является многообещающей. Если у вас есть хорошее понимание основ Hadoop, это станет основой для отличной карьеры в Hadoop.

Обучение карьере в Hadoop

Как и многие новые технологии передачи данных, Hadoop не требует какого-либо специального образования как такового. Около половины разработчиков Hadoop имеют не-компьютерные знания, такие как статистика или физика. Таким образом, ясно, что фон не является помехой для входа в мир Hadoop, если вы готовы изучать основы. Есть хорошие онлайн-курсы, посвященные Hadoop - лучший пример от eduCBA - master-apache-Hadoop

Кроме того, если вы хотите глубже погрузиться в конкретную область управления кластерами Hadoop или моделирования данных в материалах Hive по каждой конкретной теме, доступной в виде онлайн-курсов и учебников. В большинстве случаев кластеры Hadoop будут устанавливаться в облачном сервисе, таком как AWS или Azure. Так что знакомство с любым облачным поставщиком по вашему выбору очень поможет. Сервис Hadoop от AWS называется EMR.

Популярная специализация включает в себя:

  • Spark - Масштабируемый механизм обработки данных в памяти
  • HBase - нет базы данных SQL поверх HDFS
  • Луч - Потоковая обработка данных первого захода
  • Pig - преобразование данных (ETL)
  • Улей - Хранилище данных
  • Mahout, Spark MLlib - Масштабируемое машинное обучение на Hadoop
  • Apache Drill - движок SQL в Hadoop
  • Flume, Sqoop - Служба загрузки данных
  • Solr & Lucene - поиск и индексирование

Карьерный путь в Hadoop

Согласно результатам Stack Overflow Survey 2017, Hadoop является лидером в самой популярной и популярной инфраструктуре в области больших данных (Survey Link). Это возможно только потому, что люди с разных точек зрения на ИТ нашли Hadoop потенциальным карьерным путем и хотят переключиться.

Какой бы ни была ваша текущая роль в ИТ-сфере, в мире Hadoop будет легко адаптироваться к карьере. Некоторые популярные примеры -

  • Разработчик программного обеспечения (Программист) -> Разработчик Hadoop Data, который работает с различными SDK абстракции Hadoop и получает данные из данных.
  • Data Analyst -> Таким образом, у вас есть опыт работы с SQL.Huge в Hadoop для работы на движках SQL, таких как Hive или Impala
  • Бизнес-аналитик -> Организации, пытающиеся стать более прибыльными, используя массивно собранные данные, и роль бизнес-аналитика в этом играет решающую роль.
  • ETL Developer -> Если вы работаете как традиционный разработчик ETL, можете легко перейти на Hadoop ETL с помощью таких инструментов, как Spark.
  • Тестеры -> В мире Hadoop существует огромный спрос на тестеров. Понимая основы Hadoop и профилирования данных, любой тестировщик может перейти на эту роль.
  • Профессии BI / DW -> Может легко переключиться с Hadoop Data на архитектуру Data моделирования.
  • Старшие ИТ-специалисты -> Обладая глубоким пониманием предметной области и существующих проблем в мире данных, старший специалист может стать консультантом, получив знания о том, как Hadoop пытается решить эти проблемы.
  • Существуют общие роли, такие как Data Engineers или Big Data Engineering, которые отвечают за внедрение решений в основном среди поставщиков облачных решений. Получив знания о компонентах данных, предоставляемых облаком, это станет многообещающей ролью.

Должности

Экосистема Hadoop предлагает множество карьерных возможностей

  • MapReduce Developer - это в основном роль разработчика Java, который также понимает, как системы Hadoop работают внутри. Существует такая абстракция, как Hive или Pig, но для высокопроизводительных систем необходимы задания MapReduce. Разработчики MapReduce - это те, кто разбирается в системе и платит ей очень высоко.
  • Администраторы Hadoop. Это люди, ответственные за поддержание работоспособности кластера Hadoop. Это может включать типичные задачи администратора, такие как регулярные проверки работоспособности системы, но большинство задач, необходимых для понимания архитектуры системы Hadoop.
  • Devops - развертывание новых системных компонентов и других изменений, связанных с разработкой, в кластере Hadoop. Ответственность за эту роль сильно варьируется и зависит от культуры организации.
  • Разработчик данных - обработка данных поверх Hadoop. Это одна из самых популярных ролей в экосистеме Hadoop. Для этих ролей лучше всего подходят люди из SQL или аналитики. В основном работают над высокоуровневой абстракцией Hadoop, такой как Hive или Pig.
  • Администратор безопасности данных - данные являются наиболее ценными активами, и их защита является наиболее важной. Администраторы безопасности обеспечивают стандартные отраслевые политики и лучшие практики для защиты данных с пониманием ограничений системы
  • Визуализатор данных. Работа с инструментами визуализации следующего поколения, которые позволяют динамически разделять и агрегировать данные с кэшированием данных в памяти.
  • ETL Developer - Преобразование данных для улучшения качества данных или в соответствии с бизнес-логикой с использованием инструментов экосистемы Hadoop. Процесс ETL может быть потоковым или пакетным.
  • Системный архитектор - Проектирование высокопроизводительных систем с учетом доступности и долговечности данных экономически эффективным образом. Зависит от поставщика оборудования.
  • Архитектор данных - Помимо традиционного логического / физического проектирования данных, многие вещи, такие как кодирование столбцов, денормализация, дизайн секционирования и т. Д., Будут находиться в ведении архитектора данных.

    Рекомендуемые курсы

    • Онлайн обучение XML и Java
    • Node.JS Курсы
    • Учебный курс Silverlight
    • Программа Ember.JS

Оплата труда

Средняя зарплата разработчика программного обеспечения в США составляет 90 956 долларов в год, в то время как средняя зарплата разработчика Hadoop намного выше - 118 234 долларов в год.

Заработная плата разработчика Hadoop в ведущих компаниях США (Ref: действительно.com)

яблоко$ 147 573 в год
Wipro110 553 долл. США в год
HERO.jobs158 715 долларов в год
MBCAA133 422 долл. США в год
Ventures Unlimited Inc130 000 долларов в год
Nityo Infotech Services Pvt. Ltd.128 633 долл. США в год
ПОЛЯРНАЯ ЗВЕЗДА126 370 долл. США в год
PRI Technology121 396 долларов в год
НИТИО ИНФОТЕХ$ 116 909 в год
HortonWorks, Inc110 710 долларов в год

Карьера Перспектива

Экосистема Hadoop сильно расходится для удовлетворения потребностей бизнеса. По мере того как генерируемые данные растут в геометрической прогрессии и все больше и больше организаций становятся управляемыми данными, актуальность системы Hadoop будет только возрастать.

Некоторые из заметных тенденций:

  • Переход от пакетной обработки к потоковому первому подходу к обработке данных с использованием Spark и Beam
  • Более точная модель машинного обучения в реальном времени, применяемая к данным в реальном времени с использованием Spark ML
  • Отделенные механизмы SQL от хранилища данных, такие как Presto, поверх S3 для специального анализа поверх озера данных.
  • Колонковые базы данных MPP, такие как AWS Redshift, для быстрого доступа к данным

Поскольку фундаментальный аспект обработки больших данных лежит в отказоустойчивых распределенных и горизонтально масштабируемых системах, которые хорошо реализованы Hadoop, Hadoop будет продолжать оставаться ведущей экосистемой для обработки данных.

Рекомендуемая статья

Это было руководство по карьере в Hadoop. Здесь мы обсудили введение, образование, карьерный путь в Hadoop, зарплату и перспективы карьерного роста в Hadoop. Вы также можете посмотреть следующую статью, чтобы узнать больше -

  1. Лазурный Паас против Яаса и их полезные преимущества
  2. Узнайте различия между Java и Node JS
  3. Лучший экспертный совет по карьере в мейнфрейме
  4. Карьера в SQL
  5. Полезные карьеры в качестве инженера-программиста
  6. Администратор Hadoop | Навыки и карьера