AWS Data Pipeline - Потребность в конвейере данных и компонентах

Введение в конвейер данных AWS

Данные растут в геометрической прогрессии день ото дня и становятся сложными для управления по сравнению с прошлым. Нам нужны инструменты и сервисы для эффективного управления нашими данными и при меньших затратах, и именно здесь на ум приходит AWS Data Pipeline. Речь идет не просто о хранении данных, но о том, что вам нужно анализировать, обрабатывать, преобразовывать данные в нужную форму в одном месте, всего этого можно достичь с помощью AWS Data Pipeline.

Потребность в конвейере данных

Давайте попробуем понять необходимость конвейера данных на примере:

Пример № 1

У нас есть веб-сайт, который отображает изображения и картинки на основе поисковых запросов или фильтров. Наше основное внимание уделяется подаче контента. Есть определенные цели для достижения этого:

Улучшение доставки контента. Эффективное и быстрое удовлетворение потребностей пользователей.
Эффективное управление приложением: хранение пользовательских данных, а также журналов веб-сайта для последующих аналитических целей.
Улучшение бизнеса. Использование хранимых данных и аналитики позволяет принять решение о том, чтобы сделать бизнес лучше и дешевле.

Пример № 2

Есть определенные узкие места, о которых нужно позаботиться для достижения целей:

Огромный объем данных в разных форматах и в разных местах, что делает обработку, хранение и миграцию данных сложной задачей.

Различные компоненты хранения данных для разных типов данных:

Возможные данные в реальном времени для зарегистрированных пользователей: DB Dynamo .
Логи веб-сервера для потенциальных пользователей: Amazon S3 .
Демографические данные и учетные данные для входа в систему: Amazon RDS.
Данные датчика и набор данных сторонних производителей: Amazon S3.

Решения

Возможное решение: мы видим, что нам приходится иметь дело с различными типами инструментов для преобразования данных из неструктурированных в структурированные для анализа. Здесь мы должны использовать различные инструменты для хранения данных и снова для преобразования, анализа и хранения обработанных данных. Не рентабельное решение.
Оптимальное решение: используйте конвейер данных, который обрабатывает, визуализирует и переносит. Конвейер данных может быть полезен для переноса данных из разных мест, а также для анализа данных и обработки в одном месте от вашего имени.

Что такое конвейер данных AWS?

AWS Data Pipeline - это в основном веб-сервис, предлагаемый Amazon, который помогает вам преобразовывать, обрабатывать и анализировать ваши данные масштабируемым и надежным способом, а также хранить обработанные данные в S3, DynamoDb или вашей локальной базе данных.

С AWS Data Pipeline вы можете легко получить доступ к данным из разных источников.
Преобразование и обработка этих данных в масштабе.
Эффективно переносите результаты в другие службы, такие как S3, таблица DynamoDb или локальное хранилище данных.

Пример базового использования конвейера данных

Мы могли бы иметь веб-сайт, развернутый поверх EC2, который генерирует журналы каждый день.
Простая ежедневная задача может быть скопирована из E2 и доставить ее в корзину S3.
Еженедельной задачей может быть обработка данных и запуск анализа данных через Amazon EMR для создания еженедельных отчетов на основе всех собранных данных.

Запуск анализа данных с помощью AWS Data Pipeline

Сбор данных из разных источников данных, таких как - S3, Dynamodb, Local, данные датчиков и т. Д.
Выполнение преобразования, обработки и анализа в AWS EMR для создания еженедельных отчетов.
Еженедельный отчет сохраняется в Redshift, S3 или локальной базе данных.

Преимущества AWS Data Pipeline

Ниже приведены пояснения преимуществ AWS Data Pipeline:

Перетащите консоль, которая проста для понимания и использования.
Распределенная и надежная инфраструктура: конвейеры данных работают в масштабируемых службах и являются надежными в случае сбоя какой-либо ошибки или задачи, ее можно настроить на повторную попытку.
Поддерживает планирование и отслеживание ошибок: вы можете планировать свои задачи и отслеживать, что получилось неудачно и успешно.
Распределенный: Может работать параллельно на нескольких машинах или линейно.
Полный контроль над вычислительными ресурсами, такими как EC2, кластеры EMR.

Компоненты конвейера данных AWS

Ниже приведены компоненты конвейера данных AWS:

1. Определение трубопровода

Преобразуйте свою бизнес-логику в конвейер данных AWS.

Узлы данных : содержит имя, местоположение, формат источника данных (S3, DynamodB, локальный)
Действия : перемещать, преобразовывать или выполнять запросы к вашим данным.
Расписание : график ваших ежедневных или еженедельных мероприятий.
Предварительное условие : Условия, такие как запуск планировщика, проверяют наличие данных в источнике.
Ресурсы : Вычислить ресурсы EC2, EMR.
Действия : Обновление о конвейере данных, отправка уведомлений, триггер тревоги.

2. Трубопроводы

Здесь вы планируете и запускаете задачи для выполнения определенных действий.

Компоненты конвейера C : Компоненты конвейера такие же, как компоненты определения конвейера.
Экземпляры. Во время выполнения задач AWS компилирует все компоненты для создания определенных экземпляров, которые можно выполнить. Такие экземпляры имеют всю информацию о конкретных задачах.
Попытки: мы уже обсуждали, насколько надежен конвейер данных с его механизмами повтора. Здесь вы указываете, сколько раз вы хотите повторить задачу в случае ее сбоя.

3. Задача Runner

Запрашивает или опрашивает задачи из AWS Data Pipeline, а затем выполняет эти задачи.

Цены на конвейер данных AWS

Ниже приведены пояснения цен для конвейера данных AWS:

1. Бесплатный уровень

Вы можете начать работу с AWS Data Pipeline бесплатно как часть уровня бесплатного использования AWS. Новые подписчики получают каждый месяц некоторые бесплатные льготы на один год:

3 Предварительные условия низкочастотной работы на AWS без какой-либо оплаты.
5 Работа с низкой частотой на AWS без какой-либо оплаты.

2. Низкочастотный

Низкая частота предназначена для работы один раз в день или меньше. Конвейер данных использует ту же стратегию выставления счетов, что и другие веб-сервисы AWS, т. Е. Оплачивается за использование. Оплачивается счет того, как часто ваши задачи, действия и предварительные условия выполняются каждый день и где они выполняются (AWS или локально). Высокочастотные мероприятия планируется проводить чаще, чем раз в день.

Пример: мы можем запланировать выполнение операции каждый час и обрабатывать журналы веб-сайта или каждые 12 часов. Принимая во внимание, что низкочастотные действия - это те, которые выполняются один раз в день или реже, если предварительные условия не выполняются. Неактивные трубопроводы имеют состояния НЕАКТИВНО, ОЖИДАЮТ и ЗАКОНЧЕНЫ.

3. Цены на конвейер данных AWS показаны в зависимости от региона.

Регион № 1: Восток США (Северная Вирджиния), Запад США (Орегон), Азиатско-Тихоокеанский регион (Сидней), ЕС (Ирландия)

	Высокая частота	Низкая частота
Действия или предварительные условия, выполняемые через AWS	1 доллар США в месяц	0, 06 доллара в месяц
Действия или предварительные условия, выполняемые локально	$ 2, 50 в месяц	$ 1, 50 в месяц
Неактивные трубопроводы: $ 1, 00 в месяц

Регион № 2: Азиатско-Тихоокеанский регион (Токио)

	Высокая частота	Низкая частота
Действия или предварительные условия, выполняемые через AWS	$ 0, 9524 в месяц	$ 0, 5715 в месяц
Действия или предварительные условия, выполняемые локально	$ 2.381 в месяц	$ 1, 4286 в месяц
Неактивные трубопроводы: $ 0, 9524 в месяц

Трубопровод, в котором ежедневная работа, то есть низкочастотная операция на AWS по переносу данных из таблицы DynamoDB в Amazon S3, будет стоить $ 0, 60 в месяц. Если мы добавим EC2 для создания отчета на основе данных Amazon S3, общая стоимость конвейера составит 1, 20 доллара в месяц. Если мы будем выполнять это действие каждые 6 часов, это будет стоить 2 доллара в месяц, потому что тогда это будет высокочастотное мероприятие.

Вывод

AWS Data Pipeline - очень удобное решение для экспоненциально растущего объема данных при меньших затратах. Он очень надежный и масштабируемый в зависимости от вашего использования. AWS Data Pipeline - это отличный выбор для достижения всех наших бизнес-целей, когда речь идет о любых бизнес-задачах, связанных с большим объемом данных.

AWS Data Pipeline - Потребность в конвейере данных и компонентах

Содержание:

Введение в конвейер данных AWS

Потребность в конвейере данных

Пример № 1

Пример № 2

Решения

Что такое конвейер данных AWS?

Пример базового использования конвейера данных

Запуск анализа данных с помощью AWS Data Pipeline

Преимущества AWS Data Pipeline

Компоненты конвейера данных AWS

1. Определение трубопровода

2. Трубопроводы

3. Задача Runner

Цены на конвейер данных AWS

1. Бесплатный уровень

2. Низкочастотный

3. Цены на конвейер данных AWS показаны в зависимости от региона.

Вывод

Рекомендуемые статьи

Эффекты Photoshop - заполните фотографию большим количеством фотографий

Фокус со светом - эффект фотошопа

Эффект складок и складок в фотошопе

Фотопленка Фотоколлаж в фотошопе - часть 1

Дает фото закругленные углы в фотошопе

Формула внутренней стоимости - Примеры внутренней стоимости с помощью шаблона Excel

INT в Excel (формула, примеры) - Как использовать функцию INT?

Введение в интеллектуальный анализ данных - Примеры - Шаги и методы

Введение в JavaScript - Полное введение с примерами

Введение в HTML - Компонент - Применение - Характеристика и преимущества

Пример конкурентного преимущества - Лучшие 4 примера конкурентных

Операторы сравнения в JavaScript - 8 лучших операторов сравнения

Составной пример - Лучшие 4 примера составления

Комплексные числа в MATLAB - Как сгенерировать комплексное число?

Сравнить две колонки в Excel - Как сравнить две колонки?