Что такое аналитика данных?
Аналитика данных - это процесс обнаружения ключевых идей и ценных выводов из огромного количества данных, собранных или собранных из различных источников для поддержки принятия решений. Увеличенная вычислительная мощность, высокая скорость обработки. Появление интерактивных интерфейсов для конечных пользователей и доказанная эффективность парадигмы распределенных вычислений для обработки больших массивов данных позволили аналитике данных продвинуться во всех областях, особенно в розничной торговле, банковском деле, здравоохранении, логистике, обороне, государственном управлении и т. Д.
Типы аналитики данных
Процесс анализа данных субъективно подразделяется на три типа в зависимости от цели анализа данных:
- Описательная аналитика
- Прогнозная аналитика
- Prescriptive Analytics
Особенности вышеперечисленных типов аналитики описаны ниже:
1. Описательная аналитика
Описательная аналитика фокусируется на обобщении прошлых данных для получения выводов. Наиболее часто используемые меры для количественного определения распределения исторических данных включают
- Меры центральной тенденции - среднее значение, медиана, квартили, мода.
- Меры изменчивости или разброса - диапазон, межквартильный диапазон, процентили.
В последнее время трудности и ограничения, связанные со сбором, хранением и пониманием больших массивов данных, преодолеваются с помощью процесса статистического вывода. Обобщенные выводы о статистике набора данных о населении выводятся с использованием методов выборки наряду с применением центральной предельной теории.
Ведущий новостной телекомпании собирает сведения о выбранных голосующих избирателей, выбранных случайным образом, на выходе из избирательного участка в день выборов, чтобы получить статистические выводы о предпочтениях всего населения.
Повторная выборка набора данных о населении приводит к получению кусков выборок с достаточно большим размером выборки. Кластерная выборка, как правило, предпочтительна для создания хорошо стратифицированных, непредвзятых представителей набора данных о населении. Интересующая статистическая мера рассчитывается на кусках выборочных данных, чтобы получить распределение статистических значений выборки, называемое распределением выборки. Характеристики распределения выборки связаны с характеристиками набора данных о населении с использованием центральной предельной теории.
2. Прогнозная аналитика
Predictive Analytics использует шаблоны в исторических или прошлых данных для оценки будущих результатов, выявления тенденций, выявления потенциальных рисков и возможностей или прогнозирования поведения процесса. Поскольку варианты использования прогнозирования вероятны по своей природе, в этих подходах используются вероятностные модели для измерения вероятности всех возможных результатов.
ChatBot в Портале обслуживания клиентов финансовой фирмы проактивно изучает намерения клиентов или должны основываться на его / ее прошлых действиях в своем веб-домене. Благодаря прогнозируемому контексту, chatBot в интерактивном режиме общается с клиентом, чтобы быстро доставить подходящие услуги и добиться большей удовлетворенности клиентов.
В дополнение к сценариям экстраполяции для прогнозирования того, что произойдет в будущем на основе доступных прошлых данных, существует несколько приложений, которые предполагают пропущенные записи данных с помощью доступных выборок данных. Эта аппроксимация пропущенных значений в диапазоне данных выборок технически называется интерполяцией.
Мощное приложение-редактор изображений поддерживает восстановление пропущенных частей текстуры из-за наложенного текста путем интерполяции функции объекта в пропущенном блоке. Функциональная функция может быть интерпретирована как математическая запись структур в искаженном изображении.
Существенными факторами, влияющими на выбор прогнозирующих моделей / стратегий, являются:
- Точность прогнозирования: Это передает степень близости между прогнозируемым значением и фактическим значением. Более низкая дисперсия разницы между прогнозируемым значением и фактическим значением подразумевает более высокую точность прогнозной модели.
- Скорость прогнозов: приоритет отдается в приложениях для отслеживания в реальном времени
- Скорость обучения модели: зависит от сложности модели и вычислений, используемых при расчете параметров модели.
3. Предписательная аналитика
Prescriptive Analytics использует знания, обнаруженные как часть описательного и прогнозного анализа, чтобы рекомендовать контекстный курс действий. Продвинутые статистические методы и вычислительно-интенсивные методы оптимизации применяются, чтобы понять распределение оценочных прогнозов.
Точнее говоря, оценивается влияние и выгода каждого результата, который оценивается во время прогностической аналитики, для принятия эвристических и чувствительных ко времени решений для данного набора условий.
Консалтинговая фирма, специализирующаяся на фондовом рынке, проводит SWOT-анализ (Сила, слабость, возможности и угрозы) прогнозируемых цен на акции в портфеле инвесторов и рекомендует своим клиентам лучшие варианты Buy-Sell.
Поток процессов в аналитике данных
Процесс анализа данных имеет различные этапы обработки данных, как описано ниже:
1. Извлечение данных
При поступлении данных из нескольких источников данных различных типов, включая веб-страницы, базы данных, устаревшие приложения, получаются входные наборы данных различных форматов. Форматы данных, введенные в поток аналитики данных, можно широко классифицировать как
- Структурированные данные имеют четкое определение типов данных вместе с соответствующей длиной поля или разделителями полей. Этот тип данных может быть легко запрошен как контент, хранящийся в реляционной базе данных (RDBMS)
- В полуструктурированных данных отсутствует точное определение макета, но элементы данных могут быть идентифицированы, разделены и сгруппированы на основе стандартной схемы или других правил метаданных. Файл XML использует теги для хранения данных, тогда как файл нотации объекта Javascript (JSON) хранит данные в парах имя-значение. Базы данных NoSQL (не только SQL), такие как MongoDB, но и база кушеток также используются для хранения полуструктурированных данных.
- Неструктурированные данные включают в себя разговоры в социальных сетях, изображения, аудиоклипы и т. Д. Традиционные методы анализа данных не позволяют понять эти данные. Неструктурированные данные хранятся в озерах данных.
Реализация анализа данных для структурированных и полуструктурированных данных включена в различные инструменты ETL, такие как Ab Initio, Informatica, Datastage и альтернативы с открытым исходным кодом, такие как Talend.
2. Очистка и преобразование данных
Очистка проанализированных данных выполняется для обеспечения согласованности данных и доступности соответствующих данных для последующих этапов процесса. Основные операции очистки в аналитике данных:
- Обнаружение и устранение выбросов в объемах данных
- Удаление дубликатов в наборе данных
- Обработка пропущенных записей в записях данных с пониманием функциональности или вариантов использования
- Проверка допустимых значений полей в записях данных, таких как «31 февраля», не может быть допустимым значением ни в одном из полей даты.
Очищенные данные преобразуются в подходящий формат для анализа данных. Преобразования данных включают
- Фильтр нежелательных записей данных.
- Объединение данных, полученных из разных источников.
- Агрегация или группировка данных
- Типизация данных
3. KPI / Инсайт деривация
Data Mining, методы глубокого обучения используются для оценки ключевых показателей эффективности (KPI) или для получения ценной информации из очищенных и преобразованных данных. Основываясь на целях аналитики, анализ данных выполняется с использованием различных методов распознавания образов, таких как кластеризация k-средних, классификация SVM, байесовские классификаторы и т. Д., И моделей машинного обучения, таких как модели Маркова, модели гауссовой смеси (GMM) и т. Д.
Вероятностные модели на этапе обучения изучают оптимальные параметры модели, а на этапе проверки модель тестируется с использованием k-кратного перекрестного проверки, чтобы избежать ошибок подбора и подбора.
Наиболее часто используемый язык программирования для анализа данных - это R и Python. Оба имеют богатый набор библиотек (SciPy, NumPy, Pandas), которые открыты для выполнения сложного анализа данных.
4. Визуализация данных
Визуализация данных - это процесс четкого и эффективного представления непокрытых шаблонов, выводов из данных с использованием графиков, графиков, информационных панелей и графики.
- Инструменты отчетности данных, такие как QlikView, Tableau и т. Д., Отображают KPI и другие производные показатели на различных уровнях детализации.
- Инструменты отчетности позволяют конечным пользователям создавать настраиваемые отчеты с опциями поворота, детализации, используя удобный интерфейс перетаскивания
- Интерактивные библиотеки визуализации данных, такие как D3.js (документы, управляемые данными), HTML5-Anycharts и т. Д., Используются для расширения возможностей исследования анализируемых данных.
Рекомендуемые статьи
Это было руководство к тому, что такое аналитика данных. Здесь мы обсудили различные типы аналитики данных с потоком процессов. Вы также можете просмотреть другие предлагаемые статьи, чтобы узнать больше -
- Data Analyst Интервью Вопросы и ответы
- Что такое визуализация данных?
- Что такое аналитика больших данных?
- Что такое Минитаб?