Введение в вопросы и ответы по интервью с большими данными
Все виды данных, которые генерируются в Интернете, называются большими данными, более сотни ГБ данных создаются в Интернете только в результате онлайн-действий. Интернет-активность, такая как веб-активность, блоги, текст, видео / аудио файлы, изображения, электронная почта, активность в социальных сетях. Большие данные нуждаются в специализированных системах и программных средствах для обработки всех неструктурированных данных. Данные, которые могут быть получены из этих действий, называются большими данными. Большие данные полностью распространены и распространяются через Интернет, поэтому для обработки больших данных требуются распределенные системы и инструменты для извлечения информации из них.
Ниже приведены некоторые важные вопросы и ответы на важные вопросы 2019 года:
Если вы ищете работу, связанную с большими данными, вам нужно подготовиться к вопросам интервью 2019 года о больших данных. Хотя каждое собеседование по Big Data отличается и объем работы также различен, мы можем помочь вам с ответами на самые распространенные вопросы и ответы по интервью Big Data, которые помогут вам сделать скачок и добиться успеха в вашем собеседовании по Big Data.
Эти вопросы делятся на две части:
Часть 1 - вопросы интервью с большими данными (основные)
Эта первая часть охватывает основные вопросы и ответы по интервью с большими данными.
1. Что означает большие данные и чем они отличаются?
Ответ:
Большие данные - это термин, обозначающий все виды данных, генерируемых в Интернете. В Интернете более сотни ГБ данных генерируются только в результате онлайн-активности. Здесь онлайн-активность подразумевает веб-активность, блоги, текстовые, видео / аудиофайлы, изображения, электронную почту, активность в социальных сетях и так далее. Большие данные можно назвать данными, созданными в результате всех этих действий. Данные, генерируемые онлайн, в основном в неструктурированной форме. Большие данные будут также включать данные транзакций в базе данных, файлы системного журнала, а также данные, генерируемые интеллектуальными устройствами, такими как датчики, IoT, метки RFID и т. Д., В дополнение к онлайн-действиям.
Большие данные нуждаются в специализированных системах и программных средствах для обработки всех неструктурированных данных. Фактически, по некоторым оценкам отрасли, почти 85% данных, генерируемых в Интернете, неструктурированы. Обычно реляционные базы данных имеют структурированный формат, а база данных централизована. Следовательно, обработка СУБД может быть быстро выполнена с использованием языка запросов, такого как SQL. С другой стороны, большие данные очень велики и распространяются через Интернет, поэтому для обработки больших данных потребуются распределенные системы и инструменты для извлечения информации из них. Большие данные требуют специализированных инструментов, таких как Hadoop, Hive или других, а также высокопроизводительного оборудования и сетей для их обработки.
2. Каковы характеристики больших данных?
Ответ:
Большие данные имеют три основные характеристики: объем, разнообразие и скорость.
Объемная характеристика относится к размеру данных. Оценки показывают, что каждый день генерируется более 3 миллионов ГБ данных. Обработка такого объема данных невозможна на обычном персональном компьютере или в сети клиент-сервер в офисной среде с ограниченной пропускной способностью вычислений и емкостью хранения. Однако облачные сервисы предоставляют решения для обработки больших объемов данных и их эффективной обработки с использованием распределенных вычислительных архитектур.
Сортовая характеристика относится к формату больших данных - структурированных или неструктурированных. Традиционная СУБД вписывается в структурированный формат. Примером неструктурированного формата данных является формат видеофайла, файлы изображений, простой текстовый формат из веб-документа или стандартных документов MS Word, все они имеют уникальные форматы и т. Д. Также следует отметить, что СУБД не обладает способностью обрабатывать неструктурированные форматы данных. Кроме того, все эти неструктурированные данные должны быть сгруппированы и объединены, что создает потребность в специализированных инструментах и системах. Кроме того, новые данные добавляются каждый день или каждую минуту, и данные постоянно растут. Следовательно, большие данные больше ассоциируются с разнообразием.
Характеристика скорости относится к скорости, с которой создаются данные, и эффективности, необходимой для обработки всех данных. Например, к Facebook обращаются более 1, 6 миллиарда пользователей в месяц. Кроме того, существуют другие сайты социальных сетей, YouTube, службы Google и т. Д. Такие потоки данных должны обрабатываться с использованием запросов в режиме реального времени и храниться без потери данных. Таким образом, характеристика скорости важна при обработке больших данных.
Кроме того, другие характеристики включают в себя достоверность и ценность. Правдивость определит надежность и надежность данных, а ценность - это ценность, полученная организациями от обработки больших данных.
Давайте перейдем к следующим вопросам интервью с большими данными
3. Почему большие данные важны для организаций?
Ответ:
Это основной вопрос интервью Big Data, заданный в интервью. Большие данные важны, потому что, обрабатывая большие данные, организации могут получить информацию, связанную с:
• Снижение цены
• Улучшения в продуктах или услугах
• Чтобы понять поведение клиентов и рынки
• Эффективное принятие решений
• стать более конкурентоспособным
4. Назовите некоторые инструменты или системы, используемые для обработки больших данных?
Ответ:
Обработка и анализ больших данных могут быть выполнены с использованием,
• Hadoop
• Улей
• Свинья
• Mahout
• Flume
Часть 2. Вопросы для интервью с большими данными (Advanced)
Давайте теперь посмотрим на расширенные вопросы интервью больших данных.
5. Как организации поддержки больших данных?
Ответ:
Большие данные могут помочь организациям во многих отношениях. Информация, извлеченная из больших данных, может быть использована в
• Лучшая координация с клиентами и заинтересованными сторонами и решение проблем
• Улучшение отчетности и анализа для улучшения продуктов или услуг
• Настройка продуктов и услуг для отдельных рынков
• Обеспечить лучший обмен информацией
• Поддержка в принятии управленческих решений.
• Определить новые возможности, идеи продукта и новые рынки
• Соберите данные из нескольких источников и заархивируйте их для дальнейшего использования.
• Поддерживать базы данных, системы
• Определить показатели производительности
• Понимать взаимозависимости между бизнес-функциями
• Оценить эффективность организации
6. Объясните, как большие данные можно использовать для повышения ценности бизнеса?
Ответ:
Понимая необходимость анализа больших данных, такой анализ поможет предприятиям определить свое положение на рынках и поможет компаниям дифференцировать себя от своих конкурентов. Например, исходя из результатов анализа больших данных, организации могут понять потребность в индивидуальных продуктах или понять потенциальные рынки для увеличения доходов и стоимости. Анализ больших данных будет включать в себя группирование данных из различных источников, чтобы понять тенденции и информацию, связанную с бизнесом. Когда анализ больших данных выполняется плановым образом путем сбора данных из правильных источников, организации могут легко генерировать ценность для бизнеса и доходы почти на 5–20%. Примерами таких организаций являются Amazon, Linkedin, WalMart и многие другие.
Давайте перейдем к следующим вопросам интервью с большими данными
7. Что такое реализация решения для больших данных?
Ответ:
Решения для больших данных сначала внедряются в небольшом масштабе на основе концепции, подходящей для бизнеса. Из результата, который является прототипом решения, бизнес-решение масштабируется дальше. Это самые популярные вопросы интервью с большими данными, которые задаются в интервью с большими данными.
• иметь четкие цели проекта и сотрудничать, когда это необходимо
• Сбор данных из правильных источников
• Убедитесь, что результаты не искажены, потому что это может привести к неправильным выводам
• Будьте готовы вводить новшества, рассматривая гибридные подходы в обработке, включая данные из структурированных и неструктурированных типов, включая как внутренние, так и внешние источники данных.
• Понимать влияние больших данных на существующие информационные потоки в организации.
8. Какие шаги используются в решениях для больших данных?
Ответ:
Решения для больших данных следуют за тремя стандартными шагами в его реализации Они есть:
Прием данных: на этом этапе будет определен подход к извлечению и консолидации данных из нескольких источников. Например, источниками данных могут быть каналы социальных сетей, CRM, RDBMS и т. Д. Данные, извлеченные из разных источников, хранятся в распределенной файловой системе Hadoop (HDFS).
Хранение данных: это второй шаг, извлеченные данные сохраняются. Это хранилище может быть в HDFS или HBase (база данных NoSQL).
Обработка данных: это последний шаг. Сохраненные данные должны быть обработаны. Обработка выполняется с использованием таких инструментов, как Spark, Pig, MapReduce и других.
Рекомендуемая статья
Это было исчерпывающее руководство по вопросам и ответам на собеседование по Большим данным, чтобы кандидат мог легко разобраться с этими вопросами. Вы также можете посмотреть следующие статьи, чтобы узнать больше -
- Интервью MBA Вопросы, которые вы должны знать !!!
- Несколько важных советов для эксклюзивного собеседования (полезно)
- Кредитный аналитик Интервью Вопросы
- 10 отличных вопросов для интервью MBA
- Важные советы, как выжить на собеседовании (полезно)
- Вот некоторые эксклюзивные приемы собеседования (последние)