Методы кластеризации - Важность и методы кластеризации

Содержание:

Anonim

Введение в методы кластеризации

В этой статье представлен обзор различных методов кластеризации, используемых в методах интеллектуального анализа данных с различными принципами. Кластеризация - это набор объектов данных, организованных в другую логическую группу. Группировка одинаковых элементов данных и назначение одинаковых элементов данных в отдельные кластеры. Кластеризация выполняется в больших наборах данных для обучения без учителя. При этом мы выполняем разбиение набора данных на группы. Структура кластеризации представлена ​​следующим образом с подмножествами. C = c1, c2 … c n . Поскольку кластерные группы имеют сходные объекты, в методах кластеризации необходимо принять некоторые меры для определения расстояний и мер сходства. Методы кластеризации основаны на вероятностных моделях. Интеллектуальный анализ данных требует кластеризации для масштабируемости для работы с большими базами данных, обработки многомерного пространства, для обработки ошибочных данных и шума.

Объяснить методы кластеризации?

Этот метод кластеризации помогает группировать ценные данные в кластеры, и из этого выбираются подходящие результаты, основанные на различных методах. Например, при поиске информации результаты запроса группируются в небольшие кластеры, и каждый кластер имеет несущественные результаты. С помощью методов кластеризации они группируются в аналогичные категории, и каждая категория подразделяется на подкатегории, чтобы помочь в исследовании результатов запросов. Существуют различные типы методов кластеризации, они

  • Иерархические методы
  • Методы разбиения
  • Плотность на основе
  • Модельно-ориентированная кластеризация
  • Грид-модель

Ниже приведен обзор методов, используемых в интеллектуальном анализе данных и искусственном интеллекте.

1. Иерархический метод

Этот метод создает кластер путем разделения сверху вниз и снизу вверх. Оба этих подхода создают дендрограммы, которые они устанавливают между ними. Дендрограмма представляет собой древовидный формат, в котором хранится последовательность объединенных кластеров. Иерархические методы производятся несколькими разделами по уровням сходства. Они делятся на агломеративную иерархическую кластеризацию и разделительную иерархическую кластеризацию. Здесь дерево кластеров создается с использованием методов слияния. Для процесса разделения используется разделение, объединение использует агломерацию. Агломерационная кластеризация включает в себя:

  1. Первоначально все точки данных и их рассмотрение в качестве отдельных кластеров начинаются сверху вниз. Эти кластеры объединяются, пока мы не получим желаемые результаты.
  2. Следующие два одинаковых кластера сгруппированы вместе, образуя огромный кластер.
  3. Снова вычислите близость в огромном кластере и объедините похожие кластеры.
  4. Заключительный шаг включает в себя объединение всех полученных кластеров на каждом шаге, чтобы сформировать окончательный единый кластер.

2. Метод разбиения:

Основной целью раздела является перемещение. Они перемещают разделы, перемещаясь из одного кластера в другой, что делает первоначальное разделение. Он делит «n» объектов данных на «k» количество кластеров. Этот метод разделения предпочтительнее иерархической модели в распознавании образов. Следующие критерии установлены для удовлетворения методов:

  • Каждый кластер должен иметь один объект.
  • Каждый объект данных принадлежит одному кластеру.

Наиболее часто используемые методы разбиения - это алгоритм K-средних. Они делятся на «К» кластеры, представленные центроидами. Каждый центр кластера рассчитывается как среднее значение этого кластера, а функция R визуализирует результат. Этот алгоритм имеет следующие шаги:

  1. Выбор K объектов случайным образом из набора данных и формирование начальных центров (центроидов)
  2. Далее назначаем евклидово расстояние между объектами и средним центром.
  3. Назначение среднего значения для каждого отдельного кластера.
  4. Действия по обновлению Centroid для каждого кластера 'k'.

3. Модель плотности:

В этой модели кластеры определяются путем размещения областей более высокой плотности в кластере. Основным принципом, лежащим в их основе, является концентрация на двух параметрах: максимальный радиус окрестности и минимальное количество точек. Модель на основе плотности идентифицирует кластеры различной формы и шума. Он работает путем обнаружения паттернов путем оценки пространственного местоположения и расстояния до метода соседа, который здесь используется - DBSCAN (пространственная кластеризация на основе плотности), которая дает руки для больших пространственных баз данных. Использование трех точек данных для кластеризации, а именно: Точки ядра, Границы и выбросы. Основная задача - определить кластеры и параметры их распределения. Процесс кластеризации останавливается из-за необходимости в параметрах плотности. Чтобы найти кластеры, важно иметь параметр Минимальные характеристики на кластер при расчете расстояния до ядра. Эта модель предоставляет три различных инструмента: DBSCAN, HDBSCAN, Multi-scale.

4. Модельно-ориентированная кластеризация

Эта модель объединяет два или три кластера вместе из распределения данных. Основная идея этой модели состоит в том, что необходимо разделить данные на две группы на основе вероятностной модели (многомерное нормальное распределение). Здесь каждая группа назначается как понятие или класс. Каждый компонент определяется функцией плотности. Чтобы найти параметр в этой модели, для подбора распределения смеси используется оценка максимального правдоподобия. Каждый кластер «K» моделируется гауссовым распределением с двухпараметрическим вектором µ k и вектором ковариации £ k .

5. Грид-модель

В этом подходе объекты считаются управляемыми пространством путем разделения пространства на конечное число ячеек для формирования сетки. С помощью сетки метод кластеризации применяется для более быстрой обработки, которая обычно зависит от ячеек, а не от объектов. Шаги включают в себя:

  • Создание сеточной структуры
  • Плотность клеток рассчитывается для каждой клетки
  • Применяя механизм сортировки к их плотности.
  • Поиск кластерных центров и обход соседних ячеек, чтобы повторить процесс.

Важность методов кластеризации

  1. Наличие методов кластеризации помогает перезапустить процедуру локального поиска и устранить неэффективность. Кластеризация помогает определить внутреннюю структуру данных.
  2. Этот кластерный анализ был использован для модельного анализа векторной области притяжения.
  3. Кластеризация помогает понять естественную группировку в наборе данных. Их цель состоит в том, чтобы иметь смысл разделить данные на некоторую группу логических группировок.
  4. Качество кластеризации зависит от методов и выявления скрытых закономерностей.
  5. Они играют широкую роль в таких приложениях, как маркетинговые экономические исследования, веб-блоги для определения закономерностей измерения сходства, обработки изображений, пространственных исследований.
  6. Они используются при обнаружении выбросов для выявления мошенничества с кредитными картами.

Вывод

Кластеризация считается общей задачей для решения проблемы, которая формулирует проблему оптимизации. Он играет ключевую роль в области интеллектуального анализа данных и анализа данных. Мы видели разные методы кластеризации, которые делят набор данных в зависимости от требований. Большая часть исследований основана на традиционных методах, таких как K-средства и иерархические модели. Кластерные области применяются в высокоразмерных состояниях, что формирует область будущего исследования.

Рекомендуемая статья

Это было руководство по методам кластеризации. Здесь мы обсудили концепцию, важность и методы кластерных методов. Вы также можете просмотреть наши другие предлагаемые статьи, чтобы узнать больше -

  1. Что такое ETL?
  2. Что такое наука о данных
  3. Что такое Терадата?
  4. 6 лучших альтернатив AWS
  5. Кластеризация в машинном обучении
  6. Многомерная регрессия
  7. Иерархическая кластеризация | Агломерационная и разделительная кластеризация