Введение в методы кластеризации
В этой статье представлен обзор различных методов кластеризации, используемых в методах интеллектуального анализа данных с различными принципами. Кластеризация - это набор объектов данных, организованных в другую логическую группу. Группировка одинаковых элементов данных и назначение одинаковых элементов данных в отдельные кластеры. Кластеризация выполняется в больших наборах данных для обучения без учителя. При этом мы выполняем разбиение набора данных на группы. Структура кластеризации представлена следующим образом с подмножествами. C = c1, c2 … c n . Поскольку кластерные группы имеют сходные объекты, в методах кластеризации необходимо принять некоторые меры для определения расстояний и мер сходства. Методы кластеризации основаны на вероятностных моделях. Интеллектуальный анализ данных требует кластеризации для масштабируемости для работы с большими базами данных, обработки многомерного пространства, для обработки ошибочных данных и шума.
Объяснить методы кластеризации?
Этот метод кластеризации помогает группировать ценные данные в кластеры, и из этого выбираются подходящие результаты, основанные на различных методах. Например, при поиске информации результаты запроса группируются в небольшие кластеры, и каждый кластер имеет несущественные результаты. С помощью методов кластеризации они группируются в аналогичные категории, и каждая категория подразделяется на подкатегории, чтобы помочь в исследовании результатов запросов. Существуют различные типы методов кластеризации, они
- Иерархические методы
- Методы разбиения
- Плотность на основе
- Модельно-ориентированная кластеризация
- Грид-модель
Ниже приведен обзор методов, используемых в интеллектуальном анализе данных и искусственном интеллекте.
1. Иерархический метод
Этот метод создает кластер путем разделения сверху вниз и снизу вверх. Оба этих подхода создают дендрограммы, которые они устанавливают между ними. Дендрограмма представляет собой древовидный формат, в котором хранится последовательность объединенных кластеров. Иерархические методы производятся несколькими разделами по уровням сходства. Они делятся на агломеративную иерархическую кластеризацию и разделительную иерархическую кластеризацию. Здесь дерево кластеров создается с использованием методов слияния. Для процесса разделения используется разделение, объединение использует агломерацию. Агломерационная кластеризация включает в себя:
- Первоначально все точки данных и их рассмотрение в качестве отдельных кластеров начинаются сверху вниз. Эти кластеры объединяются, пока мы не получим желаемые результаты.
- Следующие два одинаковых кластера сгруппированы вместе, образуя огромный кластер.
- Снова вычислите близость в огромном кластере и объедините похожие кластеры.
- Заключительный шаг включает в себя объединение всех полученных кластеров на каждом шаге, чтобы сформировать окончательный единый кластер.
2. Метод разбиения:
Основной целью раздела является перемещение. Они перемещают разделы, перемещаясь из одного кластера в другой, что делает первоначальное разделение. Он делит «n» объектов данных на «k» количество кластеров. Этот метод разделения предпочтительнее иерархической модели в распознавании образов. Следующие критерии установлены для удовлетворения методов:
- Каждый кластер должен иметь один объект.
- Каждый объект данных принадлежит одному кластеру.
Наиболее часто используемые методы разбиения - это алгоритм K-средних. Они делятся на «К» кластеры, представленные центроидами. Каждый центр кластера рассчитывается как среднее значение этого кластера, а функция R визуализирует результат. Этот алгоритм имеет следующие шаги:
- Выбор K объектов случайным образом из набора данных и формирование начальных центров (центроидов)
- Далее назначаем евклидово расстояние между объектами и средним центром.
- Назначение среднего значения для каждого отдельного кластера.
- Действия по обновлению Centroid для каждого кластера 'k'.
3. Модель плотности:
В этой модели кластеры определяются путем размещения областей более высокой плотности в кластере. Основным принципом, лежащим в их основе, является концентрация на двух параметрах: максимальный радиус окрестности и минимальное количество точек. Модель на основе плотности идентифицирует кластеры различной формы и шума. Он работает путем обнаружения паттернов путем оценки пространственного местоположения и расстояния до метода соседа, который здесь используется - DBSCAN (пространственная кластеризация на основе плотности), которая дает руки для больших пространственных баз данных. Использование трех точек данных для кластеризации, а именно: Точки ядра, Границы и выбросы. Основная задача - определить кластеры и параметры их распределения. Процесс кластеризации останавливается из-за необходимости в параметрах плотности. Чтобы найти кластеры, важно иметь параметр Минимальные характеристики на кластер при расчете расстояния до ядра. Эта модель предоставляет три различных инструмента: DBSCAN, HDBSCAN, Multi-scale.
4. Модельно-ориентированная кластеризация
Эта модель объединяет два или три кластера вместе из распределения данных. Основная идея этой модели состоит в том, что необходимо разделить данные на две группы на основе вероятностной модели (многомерное нормальное распределение). Здесь каждая группа назначается как понятие или класс. Каждый компонент определяется функцией плотности. Чтобы найти параметр в этой модели, для подбора распределения смеси используется оценка максимального правдоподобия. Каждый кластер «K» моделируется гауссовым распределением с двухпараметрическим вектором µ k и вектором ковариации £ k .
5. Грид-модель
В этом подходе объекты считаются управляемыми пространством путем разделения пространства на конечное число ячеек для формирования сетки. С помощью сетки метод кластеризации применяется для более быстрой обработки, которая обычно зависит от ячеек, а не от объектов. Шаги включают в себя:
- Создание сеточной структуры
- Плотность клеток рассчитывается для каждой клетки
- Применяя механизм сортировки к их плотности.
- Поиск кластерных центров и обход соседних ячеек, чтобы повторить процесс.
Важность методов кластеризации
- Наличие методов кластеризации помогает перезапустить процедуру локального поиска и устранить неэффективность. Кластеризация помогает определить внутреннюю структуру данных.
- Этот кластерный анализ был использован для модельного анализа векторной области притяжения.
- Кластеризация помогает понять естественную группировку в наборе данных. Их цель состоит в том, чтобы иметь смысл разделить данные на некоторую группу логических группировок.
- Качество кластеризации зависит от методов и выявления скрытых закономерностей.
- Они играют широкую роль в таких приложениях, как маркетинговые экономические исследования, веб-блоги для определения закономерностей измерения сходства, обработки изображений, пространственных исследований.
- Они используются при обнаружении выбросов для выявления мошенничества с кредитными картами.
Вывод
Кластеризация считается общей задачей для решения проблемы, которая формулирует проблему оптимизации. Он играет ключевую роль в области интеллектуального анализа данных и анализа данных. Мы видели разные методы кластеризации, которые делят набор данных в зависимости от требований. Большая часть исследований основана на традиционных методах, таких как K-средства и иерархические модели. Кластерные области применяются в высокоразмерных состояниях, что формирует область будущего исследования.
Рекомендуемая статья
Это было руководство по методам кластеризации. Здесь мы обсудили концепцию, важность и методы кластерных методов. Вы также можете просмотреть наши другие предлагаемые статьи, чтобы узнать больше -
- Что такое ETL?
- Что такое наука о данных
- Что такое Терадата?
- 6 лучших альтернатив AWS
- Кластеризация в машинном обучении
- Многомерная регрессия
- Иерархическая кластеризация | Агломерационная и разделительная кластеризация