Что такое аналитика данных? Различные типы аналитики данных

Что такое аналитика данных?

Аналитика данных - это процесс обнаружения ключевых идей и ценных выводов из огромного количества данных, собранных или собранных из различных источников для поддержки принятия решений. Увеличенная вычислительная мощность, высокая скорость обработки. Появление интерактивных интерфейсов для конечных пользователей и доказанная эффективность парадигмы распределенных вычислений для обработки больших массивов данных позволили аналитике данных продвинуться во всех областях, особенно в розничной торговле, банковском деле, здравоохранении, логистике, обороне, государственном управлении и т. Д.

Типы аналитики данных

Процесс анализа данных субъективно подразделяется на три типа в зависимости от цели анализа данных:

Описательная аналитика
Прогнозная аналитика
Prescriptive Analytics

Особенности вышеперечисленных типов аналитики описаны ниже:

1. Описательная аналитика

Описательная аналитика фокусируется на обобщении прошлых данных для получения выводов. Наиболее часто используемые меры для количественного определения распределения исторических данных включают

Меры центральной тенденции - среднее значение, медиана, квартили, мода.
Меры изменчивости или разброса - диапазон, межквартильный диапазон, процентили.

В последнее время трудности и ограничения, связанные со сбором, хранением и пониманием больших массивов данных, преодолеваются с помощью процесса статистического вывода. Обобщенные выводы о статистике набора данных о населении выводятся с использованием методов выборки наряду с применением центральной предельной теории.

Ведущий новостной телекомпании собирает сведения о выбранных голосующих избирателей, выбранных случайным образом, на выходе из избирательного участка в день выборов, чтобы получить статистические выводы о предпочтениях всего населения.

Повторная выборка набора данных о населении приводит к получению кусков выборок с достаточно большим размером выборки. Кластерная выборка, как правило, предпочтительна для создания хорошо стратифицированных, непредвзятых представителей набора данных о населении. Интересующая статистическая мера рассчитывается на кусках выборочных данных, чтобы получить распределение статистических значений выборки, называемое распределением выборки. Характеристики распределения выборки связаны с характеристиками набора данных о населении с использованием центральной предельной теории.

2. Прогнозная аналитика

Predictive Analytics использует шаблоны в исторических или прошлых данных для оценки будущих результатов, выявления тенденций, выявления потенциальных рисков и возможностей или прогнозирования поведения процесса. Поскольку варианты использования прогнозирования вероятны по своей природе, в этих подходах используются вероятностные модели для измерения вероятности всех возможных результатов.

ChatBot в Портале обслуживания клиентов финансовой фирмы проактивно изучает намерения клиентов или должны основываться на его / ее прошлых действиях в своем веб-домене. Благодаря прогнозируемому контексту, chatBot в интерактивном режиме общается с клиентом, чтобы быстро доставить подходящие услуги и добиться большей удовлетворенности клиентов.

В дополнение к сценариям экстраполяции для прогнозирования того, что произойдет в будущем на основе доступных прошлых данных, существует несколько приложений, которые предполагают пропущенные записи данных с помощью доступных выборок данных. Эта аппроксимация пропущенных значений в диапазоне данных выборок технически называется интерполяцией.

Мощное приложение-редактор изображений поддерживает восстановление пропущенных частей текстуры из-за наложенного текста путем интерполяции функции объекта в пропущенном блоке. Функциональная функция может быть интерпретирована как математическая запись структур в искаженном изображении.

Существенными факторами, влияющими на выбор прогнозирующих моделей / стратегий, являются:

Точность прогнозирования: Это передает степень близости между прогнозируемым значением и фактическим значением. Более низкая дисперсия разницы между прогнозируемым значением и фактическим значением подразумевает более высокую точность прогнозной модели.
Скорость прогнозов: приоритет отдается в приложениях для отслеживания в реальном времени
Скорость обучения модели: зависит от сложности модели и вычислений, используемых при расчете параметров модели.

3. Предписательная аналитика

Prescriptive Analytics использует знания, обнаруженные как часть описательного и прогнозного анализа, чтобы рекомендовать контекстный курс действий. Продвинутые статистические методы и вычислительно-интенсивные методы оптимизации применяются, чтобы понять распределение оценочных прогнозов.

Точнее говоря, оценивается влияние и выгода каждого результата, который оценивается во время прогностической аналитики, для принятия эвристических и чувствительных ко времени решений для данного набора условий.

Консалтинговая фирма, специализирующаяся на фондовом рынке, проводит SWOT-анализ (Сила, слабость, возможности и угрозы) прогнозируемых цен на акции в портфеле инвесторов и рекомендует своим клиентам лучшие варианты Buy-Sell.

Поток процессов в аналитике данных

Процесс анализа данных имеет различные этапы обработки данных, как описано ниже:

1. Извлечение данных

При поступлении данных из нескольких источников данных различных типов, включая веб-страницы, базы данных, устаревшие приложения, получаются входные наборы данных различных форматов. Форматы данных, введенные в поток аналитики данных, можно широко классифицировать как

Структурированные данные имеют четкое определение типов данных вместе с соответствующей длиной поля или разделителями полей. Этот тип данных может быть легко запрошен как контент, хранящийся в реляционной базе данных (RDBMS)
В полуструктурированных данных отсутствует точное определение макета, но элементы данных могут быть идентифицированы, разделены и сгруппированы на основе стандартной схемы или других правил метаданных. Файл XML использует теги для хранения данных, тогда как файл нотации объекта Javascript (JSON) хранит данные в парах имя-значение. Базы данных NoSQL (не только SQL), такие как MongoDB, но и база кушеток также используются для хранения полуструктурированных данных.
Неструктурированные данные включают в себя разговоры в социальных сетях, изображения, аудиоклипы и т. Д. Традиционные методы анализа данных не позволяют понять эти данные. Неструктурированные данные хранятся в озерах данных.

Реализация анализа данных для структурированных и полуструктурированных данных включена в различные инструменты ETL, такие как Ab Initio, Informatica, Datastage и альтернативы с открытым исходным кодом, такие как Talend.

2. Очистка и преобразование данных

Очистка проанализированных данных выполняется для обеспечения согласованности данных и доступности соответствующих данных для последующих этапов процесса. Основные операции очистки в аналитике данных:

Обнаружение и устранение выбросов в объемах данных
Удаление дубликатов в наборе данных
Обработка пропущенных записей в записях данных с пониманием функциональности или вариантов использования
Проверка допустимых значений полей в записях данных, таких как «31 февраля», не может быть допустимым значением ни в одном из полей даты.

Очищенные данные преобразуются в подходящий формат для анализа данных. Преобразования данных включают

Фильтр нежелательных записей данных.
Объединение данных, полученных из разных источников.
Агрегация или группировка данных
Типизация данных

3. KPI / Инсайт деривация

Data Mining, методы глубокого обучения используются для оценки ключевых показателей эффективности (KPI) или для получения ценной информации из очищенных и преобразованных данных. Основываясь на целях аналитики, анализ данных выполняется с использованием различных методов распознавания образов, таких как кластеризация k-средних, классификация SVM, байесовские классификаторы и т. Д., И моделей машинного обучения, таких как модели Маркова, модели гауссовой смеси (GMM) и т. Д.

Вероятностные модели на этапе обучения изучают оптимальные параметры модели, а на этапе проверки модель тестируется с использованием k-кратного перекрестного проверки, чтобы избежать ошибок подбора и подбора.

Наиболее часто используемый язык программирования для анализа данных - это R и Python. Оба имеют богатый набор библиотек (SciPy, NumPy, Pandas), которые открыты для выполнения сложного анализа данных.

4. Визуализация данных

Визуализация данных - это процесс четкого и эффективного представления непокрытых шаблонов, выводов из данных с использованием графиков, графиков, информационных панелей и графики.

Инструменты отчетности данных, такие как QlikView, Tableau и т. Д., Отображают KPI и другие производные показатели на различных уровнях детализации.
Инструменты отчетности позволяют конечным пользователям создавать настраиваемые отчеты с опциями поворота, детализации, используя удобный интерфейс перетаскивания
Интерактивные библиотеки визуализации данных, такие как D3.js (документы, управляемые данными), HTML5-Anycharts и т. Д., Используются для расширения возможностей исследования анализируемых данных.

Что такое аналитика данных? Различные типы аналитики данных

Содержание:

Что такое аналитика данных?

Типы аналитики данных

1. Описательная аналитика

2. Прогнозная аналитика

3. Предписательная аналитика

Поток процессов в аналитике данных

1. Извлечение данных

2. Очистка и преобразование данных

3. KPI / Инсайт деривация

4. Визуализация данных

Рекомендуемые статьи

10 лучших вопросов и ответов для интервью в улье на 2018 год

Улей Установка - Скачайте и установите Hive Step by Step

Гистограмма в Excel (типы, примеры) - Как создать гистограмму?

Улейный столик - Типы Drop Table - Синтаксис и примеры

HMAC - Что такое аутентификация HMAC и почему она используется?

Что такое Apache? - Ключевая концепция - Преимущества и подмножества Apache

Что такое фишинговая атака? - Типы и цель фишинговых атак

Что такое Apache Tomcat? - Полное руководство по Apache Tomcat

Что такое алгоритм? - Работа алгоритмов с примерами

Что такое Апекс? - Как это работает? Использование и особенности - Карьера и преимущества

Agile Business Analyst - Характеристика и роль бизнес-аналитика в Agile

Инструменты After Effects - Изучите 6 лучших инструментов After Effects

Агенты в искусственном интеллекте - Понимание того, как должны действовать агенты

Agile Консультант - Стратегии и ключевые характеристики гибкого консультанта

Agile в масштабе - Концепция и преимущества - Проблемы и эффективные рамки