Различия между Text Mining и Text Analytics

Структурированные данные существуют с начала 1900-х годов, но то, что делает анализ текста и анализ текста настолько особенным, заключается в использовании информации из неструктурированных данных (обработка естественного языка). Как только мы сможем преобразовать этот неструктурированный текст в полуструктурированные или структурированные данные, будет доступно применение всех алгоритмов интеллектуального анализа данных, напр. Статистические и машинные алгоритмы обучения.

Даже Дональд Трамп смог использовать данные и преобразовать их в информацию, которая помогла ему победить на президентских выборах в США, ну, в общем, он не сделал этого, как его подчиненные. Существует очень хорошая статья http://fivethirtyeight.com/features/the-real-story-of-2016/, которую вы можете прочитать.

Многие компании начали использовать интеллектуальный анализ текста, чтобы использовать ценные входные данные из доступного там текста, например, компания, основанная на продуктах, может использовать данные Twitter / Facebook, чтобы узнать, насколько хорошо или плохо работает их продукт в мире, используя Sentimental. Анализ. В первые дни обработка обычно занимала много времени, дней, фактически, для обработки или даже реализации алгоритмов машинного обучения, но с появлением таких инструментов, как Hadoop, Azure, KNIME и другого программного обеспечения для обработки больших данных, добыча текста приобрела огромную популярность на рынке. Одним из лучших примеров анализа текста с использованием интеллектуального анализа ассоциаций является механизм рекомендаций Amazon, в котором он автоматически дает своим клиентам рекомендации о том, что еще купили другие люди при покупке какого-либо одного конкретного продукта.

Одной из самых больших проблем применения инструментов интеллектуального анализа текста к чему-то, что не находится в цифровом формате / на диске компьютера, является процесс его создания. Старые архивы и многие важные документы, которые доступны только на бумаге, иногда читаются через OCR (Optical Recognition), в котором есть много ошибок, а иногда данные вводятся вручную, что склонно к человеческим ошибкам. Причина, по которой мы хотим этого, заключается в том, что мы можем получить другие идеи, которые не видны при традиционном чтении.

Некоторые из этапов интеллектуального анализа текста приведены ниже

  • Поиск информации
  • Подготовка и очистка данных
  • сегментация
  • лексемизацию
  • Номера стоп-слов и пунктуации
  • Морфологический
  • Преобразовать в нижний регистр
  • POS-теги
  • Создать текстовый корпус
  • Матрица срочных документов

А ниже приведены шаги в Text Analytics, которые применяются после подготовки матрицы срочных документов.

  • Моделирование (это может включать в себя логические модели, прогнозные модели или предписывающие модели)
  • Обучение и оценка моделей
  • Применение этих моделей
  • Визуализация моделей

Единственное, что нужно всегда помнить, это то, что анализ текста всегда предшествует анализу текста.

Сравнение лицом к лицу между Text Mining и Text Analytics (Инфографика)

Ниже приведено 5 Сравнение интеллектуального анализа текста с анализом текста.

Ключевые отличия Text Mining от Text Analytics

Различим анализ текста и анализ текста на основе шагов, которые выполняются в нескольких приложениях, в которых применяются эти анализ и анализ текста:

• классификация документов
При этом этапы, включенные в интеллектуальный анализ текста, включают в себя токенизацию, создание основы и лемматизацию, удаление стоп-слов и знаков препинания и, наконец, вычисление термина частотная матрица или частотные матрицы документа.

Токенизация - процесс разбиения целых данных (корпуса) на более мелкие куски или более мелкие слова, обычно на отдельные слова, называется токенизацией (модель N-Gram или модель мешка слов)

Стемминг и лемматизация. Например, слова «большой» и «большой» означают одно и то же, и они будут образовывать дубликаты данных, чтобы сохранить избыточность данных, мы выполняем лемматизацию, связывая слова с корневым словом.
Удаление стоп-слов - стоп-слова бесполезны в аналитике, которая будет включать такие слова, как is, the и т. Д.

Частоты терминов - это матрица, в которой заголовки строк являются именами документов, а столбцы - терминами (словами), а данные - частотой слов, встречающихся в этих конкретных документах. Ниже приведен пример скриншота.

На рисунке выше у нас есть атрибуты в строках (словах) и номер документа в виде столбцов, а частота слов в качестве данных.

Теперь, что касается анализа текста, у нас есть следующие шаги, которые необходимо учитывать

Кластеризация. Используя K-означает кластеризацию / Нейронные сети / CART (деревья классификации и регрессии) или любой другой алгоритм кластеризации, мы можем теперь кластеризовать документы на основе сгенерированных функций (в данном случае это слова).

Оценка и визуализация. Мы разбиваем кластер на два измерения и смотрим, как эти кластеры отличаются друг от друга. Если модель справляется с тестовыми данными, мы можем развернуть ее в производстве, и это будет хороший классификатор документов, который будет классифицировать любые новые документы, которые даны как входные данные, и он просто назовет кластер, в который он попадет.

• Анализ настроений

Один из самых мощных инструментов на рынке, который помогает в обработке данных Twitter / данных Facebook или любых других данных, которые можно использовать для определения того, является ли настроение хорошим, плохим или нейтральным по отношению к какому-либо конкретному процессу / продукту. или человек анализ настроений.
Источник данных может быть легко доступен с помощью Twitter API / Facebook API, чтобы получать твиты / комментарии / лайки и т. Д. В твите или посте компании. Основная проблема заключается в том, что эти данные трудно структурировать. Данные также могут содержать различные рекламные объявления, и специалист по данным, работающий в компании, должен убедиться, что выбор данных сделан правильно, чтобы только отдельные выбранные твиты / сообщения проходили этапы предварительной обработки.
Другие инструменты включают Web-Scraping, это часть анализа текста, в которой вы копируете данные с веб-сайтов, используя сканеры.
Процесс интеллектуального анализа текста остается тем же самым, что и токенизация, определение и лемматизация, удаление стоп-слов и знаков препинания и, наконец, вычисление термина «матрица частот» или матриц частоты документа, но единственное отличие возникает при применении анализа настроений.
Обычно мы даем оценку любому посту / твиту. Обычно, когда вы покупаете продукт и просматриваете рецензию, вам также предоставляется возможность дать звездочку обзору и оставить комментарий. Google, Amazon и другие веб-сайты используют звездочки для оценки комментария, не только для этого они также берут твиты / посты и дают их людям, чтобы они оценили их как хорошие / плохие / нейтральные, и, комбинируя эти две оценки, они генерируют новый оценка для любого конкретного твита / поста.
Визуализация анализа настроения может быть выполнена с использованием облака слов, гистограмм матрицы частотных терминов.

• Ассоциация горного анализа

Одним из приложений, над которым работали некоторые ребята, была «Вероятностная модель нежелательных явлений, связанных с наркотиками», в которой можно проверить, какие неблагоприятные события могут вызывать другие неблагоприятные события, если он принимает какое-то конкретное лекарство.
Анализ текста включал следующий рабочий процесс

Из приведенного выше рисунка видно, что до сбора данных все этапы относятся к анализу текста, который идентифицирует источник данных, извлекает их и затем готовит их для анализа.

Затем, применяя майнинг ассоциации, мы имеем следующую модель
Как мы видим, некоторые стрелки указывают на оранжевый кружок, а затем одна стрелка указывает на любое конкретное ADE (неблагоприятное лекарственное событие). Если мы возьмем пример в левой нижней части изображения, мы найдем апатию, астению и чувство ненормальности, которое приводит к чувству вины, хорошо можно сказать, что это очевидно, это очевидно, потому что, как человек, вы можете интерпретировать и связывать, но здесь машина интерпретирует это и сообщает нам следующее неблагоприятное лекарственное событие.

Пример облака слов приведен ниже

Сравнительная таблица между Text Mining и Text Analytics

Ниже приведены списки точек, которые описывают сравнение между Text Mining и Text Analytics:

Основа для сравненияText MiningТекстовая аналитика

Смысл

Анализ текста в основном очищает данные od, чтобы быть доступным для анализа текстаText Analytics применяет статистические и машинные методы обучения, чтобы иметь возможность прогнозировать / предписывать или выводить любую информацию из данных, добытых в тексте.

концепция

Анализ текста - это инструмент, который помогает очистить данные.Text Analytics - это процесс применения алгоритмов

Фреймворк

Если говорить о платформе, интеллектуальный анализ текста похож на ETL (Extract Transform Load), что означает, что для возможности вставки данных в базу данных эти шаги выполняютсяВ текстовой аналитике эти данные используются для добавления ценностей в бизнес, например, для создания облаков слов, частотных диаграмм биграмм, в некоторых случаях N-грамм

язык

Python и R - самые известные инструменты для интеллектуального анализа текстаДля анализа текста, как только данные станут доступны на уровне базы данных, мы сможем использовать любое аналитическое программное обеспечение, в том числе python и R. Другие программы включают Power BI, Azure, KNIME и т. Д.

Примеры

  • классификация текста
  • кластеризация текста
  • извлечение концепции / объекта
  • анализ настроений
  • обобщение документов
  • производство гранулярных таксономий
  • Моделирование отношений сущностей
  • Анализ ассоциации
  • визуализация
  • прогнозная аналитика
  • поиск информации
  • лексический анализ
  • распознавание образов
  • мечение / аннотаций

Заключение - текстовый майнинг против текстовой аналитики

Будущее интеллектуального анализа текста и анализа текста применимо не только к английскому языку, но также наблюдается постоянное развитие, и с использованием лингвистических инструментов не только английский язык, но и другие языки считаются для анализа.

Масштабы и будущее интеллектуального анализа текста будут расти, поскольку ресурсы для анализа других языков ограничены.

Текстовая аналитика имеет очень широкий диапазон, где она может быть применена, некоторые примеры отраслей, где это может быть использовано:

  • Мониторинг социальных сетей
  • Фарма / Биотехнология
  • Приложения для бизнеса и маркетинга

Рекомендуемая статья

Это было руководство по различиям между Text Mining и Text Analytics, их значением, сравнением лицом к лицу, ключевыми отличиями, сравнительной таблицей и заключением. Вы также можете посмотреть следующие статьи, чтобы узнать больше -

  1. Лазурный Паас против Iaas-Узнайте различия
  2. Лучшие 3 вещи, которые нужно узнать о Data Mining против Text Mining
  3. Знайте лучшее 7 различий между интеллектуальным анализом данных и анализом данных
  4. Бизнес-аналитика против машинного обучения - что лучше
  5. Прогнозирующая аналитика против интеллектуального анализа данных - какой из них более полезен