Введение в команды HDFS
Большие данные - это слово для наборов данных, которые настолько велики или сложны, что обычного прикладного программного обеспечения для обработки данных недостаточно, чтобы заключить с ними договор. Hadoop - это среда программирования на основе Java с открытым исходным кодом, которая объединяет пространство обработки и хранения чрезвычайно громоздких наборов данных в распределенной вычислительной среде. Apache Software Foundation является ключом для установки Hadoop
Особенности HDFS:
- HDFS работает на архитектуре Master / Slave
- Файлы используются HDFS для хранения пользовательских данных
- содержит огромный набор каталогов и файлов, которые хранятся в иерархическом формате.
- Внутри файл разбит на более мелкие блоки, и эти блоки хранятся в наборе Datanodes.
- Namenode и Datanode - это часть программного обеспечения, предназначенная для работы на компьютерах, которые классически работают на ОС GNU / Linux.
Наменоде:
- Здесь файловая система поддерживается именем узла
- Namenode также отвечает за регистрацию всех изменений файловой системы, кроме того, поддерживает образ полного пространства имен файловой системы и файловой карты в памяти
- Проверка производится на периодической основе. следовательно, легко вернуться на стадию до того, как здесь будет достигнута точка крушения.
Датоде:
- Datanode предоставляет данные в файлах в своей локальной файловой системе
- Чтобы определить свое существование, узел данных отправляет сердцебиение наменоду
- Отчет о блокировке будет генерироваться для каждого полученного 10-го пульса
- Репликация подразумевается для данных, хранящихся в этих узлах данных
Репликация данных:
- Здесь последовательность блоков образует файл с размером блока по умолчанию 128 МБ.
- Все блоки в файле, кроме финала, имеют одинаковый размер.
- От каждого узла данных в кластере элемент namenode получает сердцебиение
- BlockReport содержит все блоки на Датоде.
- содержит огромный набор каталогов и файлов, которые хранятся в иерархическом формате.
- Внутри файл разбит на более мелкие блоки, и эти блоки хранятся в наборе Datanodes.
- Namenode и Datanode - это часть программного обеспечения, предназначенная для работы на компьютерах, которые классически работают на ОС GNU / Linux.
Отслеживание заданий: JobTracker обсуждает NameNode для определения положения данных. Кроме того, найдите лучшие узлы TaskTracker для выполнения задач, основанных на локальности данных
Трекер задач: TaskTracker - это узел в кластере, который принимает задачи - операции Map, Reduce и Shuffle - из JobTracker.
Вторичный узел имени (или) узел контрольной точки: получает EditLog из узла имени через регулярные промежутки времени и применяется к его образу FS. И копирует обратно заполненный образ FS в имя узла во время его перезапуска. Основная цель узла Secondary Name - создать контрольную точку в HDFS.
Пряжа:
- YARN имеет центральный компонент управления ресурсами, который управляет ресурсами и назначает ресурсы каждому приложению.
- Здесь Resource Manager - это мастер, который присваивает ресурсы, связанные с кластером, менеджер ресурсов состоит из двух компонентов, менеджера приложений и планировщика, эти два компонента вместе управляют заданиями в кластерных системах. другой компонент вызывает диспетчер узлов (NM), который отвечает за управление заданиями и рабочими процессами пользователей на данном узле.
- Точная репликация данных в активном наменоде выполняется посредством Standby NameNode. Он действует как ведомый, поддерживает достаточно состояния, чтобы обеспечить быстрое переключение при отказе, если это необходимо.
Основные команды HDFS:
Основные команды HDFS |
||
Sr.No | Свойство команды HDFS | Команда HDFS |
1 | Версия для печати hadoop | версия $ hadoop |
2 | Список содержимого корневого каталога в HDFS | $ hadoop fs -ls |
3 | Сообщите об объеме пространства, используемого и доступного в текущей смонтированной файловой системе | $ hadoop fs -df hdfs: / |
4 | Балансировщик HDFS повторно балансирует данные между узлами данных, перемещая блоки с чрезмерно используемых на недостаточно используемые узлы. | $ hadoop балансировщик |
5 | Справочная команда | $ hadoop fs -help |
Промежуточные команды HDFS:
Промежуточные команды HDFS |
||
Sr.No | Свойство команды HDFS | Команда HDFS |
6 | создает каталог в указанном месте HDFS | $ hadoop fs -mkdir / user / cloudera / |
7 | Копирует данные из одного места в другое | $ hadoop fs -put data / sample.txt / user / training / hadoop |
8 | Смотрите пространство, занимаемое определенным каталогом в HDFS | $ hadoop fs -du -s -h / user / cloudera / |
9 | Удалить каталог в Hadoop | $ hadoop fs -rm -r / user / cloudera / pigjobs / |
10 | Удаляет все файлы в указанном каталоге | $ hadoop fs -rm -skipTrash hadoop / retail / * |
11 | Чтобы очистить мусор | $ hadoop fs -expunge |
12 | копирует данные с и на локальный HDFS | $ hadoop fs -copyFromLocal / home / cloudera / sample / / user / cloudera / flume /
$ hadoop fs -copyToLocal / user / cloudera / pigjobs / * / home / cloudera / oozie / |
Расширенные команды HDFS:
Промежуточные команды HDFS |
||
Sr.No | Свойство команды HDFS | Команда HDFS |
13 | изменить права доступа к файлу | $ sudo -u hdfs hadoop fs -chmod 777 / пользователь / cloudera / flume / |
14 | установить коэффициент репликации данных для файла | $ hadoop fs -setrep -w 5 / user / cloudera / pigjobs / |
15 | Подсчитайте количество каталогов, файлов и байтов в hdfs | $ hadoop fs -count hdfs: / |
16 | заставить наменоде существовать в безопасном режиме | $ sudo -u hdfs hdfs dfsadmin -safemode оставить |
17 | Hadoop формат наменоде | $ hadoop namenode -формат |
HDFS Советы и хитрости:
1) Мы можем добиться более быстрого восстановления, когда число узлов кластера выше.
2) Увеличение объема памяти за единицу времени увеличивает время восстановления.
3) Оборудование Namenode должно быть очень надежным.
4) Сложный мониторинг может быть достигнут через ambari.
5) Системное голодание можно уменьшить, увеличив количество редукторов.
Рекомендуемые статьи
Это было руководство по командам HDFS. Здесь мы обсудили команды, функции HDFS, основные, промежуточные и расширенные команды с графическим представлением, советами и рекомендациями по командам. Вы также можете просмотреть наши другие предлагаемые статьи, чтобы узнать больше -
- Команды узла
- Команды Matlab
- Преимущества СУБД
- Экосистема Hadoop
- Команды Hadoop fs