Введение в Data Engineer Интервью Вопросы и ответы

Термин «разработка данных» - это термин, в котором все знают об этом и довольно популярен в области больших данных. Разработка данных относится к инфраструктуре данных или архитектуре данных. Необработанные данные, полученные из различных источников, таких как социальные сети, мобильные телефоны, www (интернет), должны быть преобразованы, очищены, профилированы и агрегированы для нужд бизнеса. Эти необработанные данные также называются Dark Data. Практика проектирования, проектирования и реализации системы обработки данных помогает преобразовывать данные в часть соответствующей информации или набора данных, такая информация или набор данных называется Data Engineering.

Ниже приведен список лучших вопросов и ответов на интервью с инженером-разработчиком 2019 года:

Если вы ищете работу, связанную с Data Engineer, вам необходимо подготовиться к вопросам интервью 2019 Data Engineer. Несмотря на то, что все вопросы для интервью с инженерами данных различны, а объем работы также различен, мы можем помочь вам с ответами на самые распространенные вопросы об интервью с инженерами данных, которые помогут вам сделать скачок и добиться успеха в интервью с инженером данных.

1. Что такое Data Engineering?

Ответ:
Разработка данных - это термин, который довольно популярен в области больших данных и в основном относится к инфраструктуре данных или архитектуре данных.
Данные, сгенерированные многими источниками, такими как социальные сети, мобильные телефоны, интернет (интернет), являются необработанными данными. Он должен быть преобразован, очищен, профилирован и агрегирован для нужд бизнеса. Мы можем назвать эти необработанные данные темными данными, которые мы будем освещать, чтобы сделать эти темные данные полезными. Практика проектирования, проектирования и внедрения системы обработки данных, которая поможет преобразовать данные в полезную информацию, называется Data Engineering.

2. Объясните ежедневную работу инженера данных?

Ответ:
Ежедневная работа инженера по данным состоит из:
а. управление данными в организации
б. обработка и поддержка исходных систем данных и промежуточных областей
с. делать ETL или ELT и преобразование данных
д. упрощение очистки данных и улучшение дедупликации и построения данных
е. выполнение специальных запросов для создания и извлечения данных
Ниже приведена визуализация, информирующая о том, над чем работает инженер данных: -

3. У вас есть опыт моделирования данных?

Ответ:
Можно сказать, что он / она работал над проектом для клиента финансов / медицинского страхования, где они использовали инструменты ETL, такие как Informatica / Talend / Pentaho и т. Д., Для преобразования и обработки данных, извлеченных из базы данных MySQL / RDS / SQL, и отправки передать эту информацию поставщикам, которые могут помочь увеличить их доходы. Ниже можно показать высокоуровневую архитектуру модели данных. Он состоит из первичного ключа, объекта, атрибутов, отношений, ограничений и т. Д.

4. Каковы различные типы схем проектирования в моделировании данных? Объясните с примером?

Ответ:
Существует два типа схем в моделировании данных:
а. Схема звезды
Эта схема разделена на две: одна - таблица фактов, а другая - таблица измерений, где все таблицы измерений связаны с таблицей фактов. Фактически, внешний ключ таблицы относится к первичным ключам, присутствующим в таблицах измерений. См. Ниже архитектуру звездной схемы:

б. Снежинка Схема
В этой схеме уровень нормализации повышен, здесь таблица фактов останется такой же, как и у звездной схемы, здесь таблицы измерений нормализованы. Благодаря многослойности таблиц измерений, он выглядит как снежинка, поэтому и называется схемой снежинки. Смотрите ниже архитектуры: -

5. Какой инструмент ETL вы используете и как это лучше всего сравнить с другими?

Ответ:
Можно сказать, что он / она использовал Informatica в качестве инструмента ETL из-за многих моментов, в первую очередь это то, что согласно Волшебному квадранту Gartner для инструментов интеграции данных Informatica позиционируется как лидер в течение 10-го года подряд. Он прост в использовании и изучении и имеет функции для подключения к различным источникам данных и типам данных, повторно используемым компонентам и функциям, которые делают его наиболее любимым для разработчиков ETL. Он также имеет свой собственный планировщик, что является еще одним преимуществом, когда другие инструменты ETL должны использовать внешний планировщик для планирования заданий.

6. Какие технологии / язык программирования нужно иметь / учиться на инженера данных?

Ответ:
Математика (линейная алгебра и вероятность)
Статистика (сводная статистика)
Техника машинного обучения
Языки R и SAS
Базы данных SQL, Hive QL
Python (в основном используется)
Помимо этого, нужно иметь решение проблем, аналитические и архитектурные знания базы данных.

7. С какими общими проблемами сталкиваются инженеры данных?

Ответ:
1. Интеграция в реальном времени / Непрерывная интеграция
2. Хранение огромного количества данных - одна проблема, информация из этих данных - другая проблема.
3. Какие инструменты можно использовать, которые дадут наилучшую производительность, хранение, эффективность и результаты.
4. Масштабируется ли хранилище? Предположим, как узнать, что для обработки всего набора данных сколько времени это займет?
5. Учитывая конфигурацию процессоров и оперативной памяти
6. Как бороться с отказами, есть отказоустойчивость или нет?

8. Чем Data Architect отличается от Data Engineer?

Ответ:
Data Architect - это человек, который управляет данными, особенно когда имеешь дело с разными номерами различных источников данных. Нужно иметь глубокие знания о том, как работает база данных, как данные связаны с бизнес-проблемами и как изменения будут мешать использованию данных организации, а затем архитектор данных будет манипулировать / преобразовывать архитектуру данных в соответствии с ними.
Основная обязанность Data architect - работа с хранилищами данных, разработка архитектуры данных или корпоративного центра данных / хранилища данных.
Принимая во внимание, что инженер Data помогает в установке решений для хранилищ данных, моделировании данных, разработке и тестировании архитектуры баз данных.

9. Опишите время, когда вы нашли новый вариант использования для существующей базы данных, который оказал положительное влияние на бизнес?

Ответ:
В то время как в эпоху Больших Данных иметь SQL будет не хватать следующих функций:
а. СУБД являются БД, ориентированными на схемы, поэтому лучше для структурированных данных, а не для полуструктурированных или неструктурированных данных.
б. Не в состоянии обрабатывать непредсказуемые и неструктурированные данные.
с. Он не масштабируется по горизонтали, то есть параллельное выполнение и сохранение в SQL невозможно.
д. Он страдает от проблемы производительности, когда количество пользователей увеличивается.
е. Он в основном используется для обработки транзакций в Интернете.

Чтобы преодолеть эти недостатки, мы можем использовать NoSQL DB, т.е. не только SQL.
Таким образом, в проекте можно использовать разные типы NoSQL DB, такие как Cassandra, Mongo DB, Graph DB, HBase и т. Д.

10. Есть ли у вас опыт работы в среде облачных вычислений? Какие преимущества вы видите, работая в одном?

Ответ:
Можно сказать, что да, Cloud Computing Environment готова переместить среду для производства, разработки и тестирования, не думая об объединении множества экземпляров / Linux / оконных серверов вместе. На рынке существуют различные сервисы облачных вычислений, такие как AWS (веб-сервисы Amazon), Azure (Microsoft), GCP (облачная платформа Google). Сервис облачных вычислений предоставляет следующие функции, такие как гибкость, т. Е. Среда будет расширяться в соответствии с требованиями, аварийное восстановление за счет создания резервных копий и моментальных снимков, работа в любом месте с VPN, безопасная среда и дружественная среда, поскольку она работает на обычном оборудовании, т.е. компьютерах общего назначения, которые имеют низкую стоимость.

Вывод

В приведенном выше блоге мы сохранили наиболее часто задаваемые вопросы об инженерах данных и о том, как можно ответить на них, задав особые моменты.

Рекомендуемая статья:

Это было исчерпывающее руководство по вопросам интервью с инженерами данных и ответы на них, чтобы кандидат мог легко разобрать эти вопросы интервьюеров с инженерами данных. Эта статья состоит из всех лучших вопросов и ответов на вопросы интервьюера. Вы также можете посмотреть следующие статьи, чтобы узнать больше -

  1. Важнейший Лазурный Паас против Яаса
  2. Вопросы по интервью Big Data
  3. 5 самых важных вопросов об интервью Elasticsearch
  4. Свинья Интервью Вопросы и ответы
  5. Топ-5 самых ценных вопросов для интервью с наукой о данных