Команда HDFS - Основные для продвинутых команд с советами и рекомендациями

Содержание:

Anonim

Введение в команды HDFS

Большие данные - это слово для наборов данных, которые настолько велики или сложны, что обычного прикладного программного обеспечения для обработки данных недостаточно, чтобы заключить с ними договор. Hadoop - это среда программирования на основе Java с открытым исходным кодом, которая объединяет пространство обработки и хранения чрезвычайно громоздких наборов данных в распределенной вычислительной среде. Apache Software Foundation является ключом для установки Hadoop

Особенности HDFS:

  • HDFS работает на архитектуре Master / Slave
  • Файлы используются HDFS для хранения пользовательских данных
  • содержит огромный набор каталогов и файлов, которые хранятся в иерархическом формате.
  • Внутри файл разбит на более мелкие блоки, и эти блоки хранятся в наборе Datanodes.
  • Namenode и Datanode - это часть программного обеспечения, предназначенная для работы на компьютерах, которые классически работают на ОС GNU / Linux.

Наменоде:

  • Здесь файловая система поддерживается именем узла
  • Namenode также отвечает за регистрацию всех изменений файловой системы, кроме того, поддерживает образ полного пространства имен файловой системы и файловой карты в памяти
  • Проверка производится на периодической основе. следовательно, легко вернуться на стадию до того, как здесь будет достигнута точка крушения.

Датоде:

  • Datanode предоставляет данные в файлах в своей локальной файловой системе
  • Чтобы определить свое существование, узел данных отправляет сердцебиение наменоду
  • Отчет о блокировке будет генерироваться для каждого полученного 10-го пульса
  • Репликация подразумевается для данных, хранящихся в этих узлах данных

Репликация данных:

  • Здесь последовательность блоков образует файл с размером блока по умолчанию 128 МБ.
  • Все блоки в файле, кроме финала, имеют одинаковый размер.
  • От каждого узла данных в кластере элемент namenode получает сердцебиение
  • BlockReport содержит все блоки на Датоде.
  • содержит огромный набор каталогов и файлов, которые хранятся в иерархическом формате.
  • Внутри файл разбит на более мелкие блоки, и эти блоки хранятся в наборе Datanodes.
  • Namenode и Datanode - это часть программного обеспечения, предназначенная для работы на компьютерах, которые классически работают на ОС GNU / Linux.

Отслеживание заданий: JobTracker обсуждает NameNode для определения положения данных. Кроме того, найдите лучшие узлы TaskTracker для выполнения задач, основанных на локальности данных

Трекер задач: TaskTracker - это узел в кластере, который принимает задачи - операции Map, Reduce и Shuffle - из JobTracker.

Вторичный узел имени (или) узел контрольной точки: получает EditLog из узла имени через регулярные промежутки времени и применяется к его образу FS. И копирует обратно заполненный образ FS в имя узла во время его перезапуска. Основная цель узла Secondary Name - создать контрольную точку в HDFS.

Пряжа:

  • YARN имеет центральный компонент управления ресурсами, который управляет ресурсами и назначает ресурсы каждому приложению.
  • Здесь Resource Manager - это мастер, который присваивает ресурсы, связанные с кластером, менеджер ресурсов состоит из двух компонентов, менеджера приложений и планировщика, эти два компонента вместе управляют заданиями в кластерных системах. другой компонент вызывает диспетчер узлов (NM), который отвечает за управление заданиями и рабочими процессами пользователей на данном узле.
  • Точная репликация данных в активном наменоде выполняется посредством Standby NameNode. Он действует как ведомый, поддерживает достаточно состояния, чтобы обеспечить быстрое переключение при отказе, если это необходимо.

Основные команды HDFS:

Основные команды HDFS

Sr.NoСвойство команды HDFSКоманда HDFS
1Версия для печати hadoopверсия $ hadoop
2Список содержимого корневого каталога в HDFS$ hadoop fs -ls
3Сообщите об объеме пространства, используемого и доступного в текущей смонтированной файловой системе$ hadoop fs -df hdfs: /
4Балансировщик HDFS повторно балансирует данные между узлами данных, перемещая блоки с чрезмерно используемых на недостаточно используемые узлы.$ hadoop балансировщик
5Справочная команда$ hadoop fs -help

Промежуточные команды HDFS:

Промежуточные команды HDFS

Sr.NoСвойство команды HDFSКоманда HDFS
6создает каталог в указанном месте HDFS$ hadoop fs -mkdir / user / cloudera /
7Копирует данные из одного места в другое$ hadoop fs -put data / sample.txt / user / training / hadoop
8Смотрите пространство, занимаемое определенным каталогом в HDFS$ hadoop fs -du -s -h / user / cloudera /
9Удалить каталог в Hadoop$ hadoop fs -rm -r / user / cloudera / pigjobs /
10Удаляет все файлы в указанном каталоге$ hadoop fs -rm -skipTrash hadoop / retail / *
11Чтобы очистить мусор$ hadoop fs -expunge
12копирует данные с и на локальный HDFS$ hadoop fs -copyFromLocal / home / cloudera / sample / / user / cloudera / flume /

$ hadoop fs -copyToLocal / user / cloudera / pigjobs / * / home / cloudera / oozie /

Расширенные команды HDFS:

Промежуточные команды HDFS

Sr.NoСвойство команды HDFSКоманда HDFS
13изменить права доступа к файлу$ sudo -u hdfs hadoop fs -chmod 777 / пользователь / cloudera / flume /
14установить коэффициент репликации данных для файла$ hadoop fs -setrep -w 5 / user / cloudera / pigjobs /
15Подсчитайте количество каталогов, файлов и байтов в hdfs$ hadoop fs -count hdfs: /
16заставить наменоде существовать в безопасном режиме$ sudo -u hdfs hdfs dfsadmin -safemode оставить
17Hadoop формат наменоде$ hadoop namenode -формат

HDFS Советы и хитрости:

1) Мы можем добиться более быстрого восстановления, когда число узлов кластера выше.

2) Увеличение объема памяти за единицу времени увеличивает время восстановления.

3) Оборудование Namenode должно быть очень надежным.

4) Сложный мониторинг может быть достигнут через ambari.

5) Системное голодание можно уменьшить, увеличив количество редукторов.

Рекомендуемые статьи

Это было руководство по командам HDFS. Здесь мы обсудили команды, функции HDFS, основные, промежуточные и расширенные команды с графическим представлением, советами и рекомендациями по командам. Вы также можете просмотреть наши другие предлагаемые статьи, чтобы узнать больше -

  1. Команды узла
  2. Команды Matlab
  3. Преимущества СУБД
  4. Экосистема Hadoop
  5. Команды Hadoop fs