Методы кластеризации - Важность и методы кластеризации

Введение в методы кластеризации

В этой статье представлен обзор различных методов кластеризации, используемых в методах интеллектуального анализа данных с различными принципами. Кластеризация - это набор объектов данных, организованных в другую логическую группу. Группировка одинаковых элементов данных и назначение одинаковых элементов данных в отдельные кластеры. Кластеризация выполняется в больших наборах данных для обучения без учителя. При этом мы выполняем разбиение набора данных на группы. Структура кластеризации представлена следующим образом с подмножествами. C = c1, c2 … c _n . Поскольку кластерные группы имеют сходные объекты, в методах кластеризации необходимо принять некоторые меры для определения расстояний и мер сходства. Методы кластеризации основаны на вероятностных моделях. Интеллектуальный анализ данных требует кластеризации для масштабируемости для работы с большими базами данных, обработки многомерного пространства, для обработки ошибочных данных и шума.

Объяснить методы кластеризации?

Этот метод кластеризации помогает группировать ценные данные в кластеры, и из этого выбираются подходящие результаты, основанные на различных методах. Например, при поиске информации результаты запроса группируются в небольшие кластеры, и каждый кластер имеет несущественные результаты. С помощью методов кластеризации они группируются в аналогичные категории, и каждая категория подразделяется на подкатегории, чтобы помочь в исследовании результатов запросов. Существуют различные типы методов кластеризации, они

Иерархические методы
Методы разбиения
Плотность на основе
Модельно-ориентированная кластеризация
Грид-модель

Ниже приведен обзор методов, используемых в интеллектуальном анализе данных и искусственном интеллекте.

1. Иерархический метод

Этот метод создает кластер путем разделения сверху вниз и снизу вверх. Оба этих подхода создают дендрограммы, которые они устанавливают между ними. Дендрограмма представляет собой древовидный формат, в котором хранится последовательность объединенных кластеров. Иерархические методы производятся несколькими разделами по уровням сходства. Они делятся на агломеративную иерархическую кластеризацию и разделительную иерархическую кластеризацию. Здесь дерево кластеров создается с использованием методов слияния. Для процесса разделения используется разделение, объединение использует агломерацию. Агломерационная кластеризация включает в себя:

Первоначально все точки данных и их рассмотрение в качестве отдельных кластеров начинаются сверху вниз. Эти кластеры объединяются, пока мы не получим желаемые результаты.
Следующие два одинаковых кластера сгруппированы вместе, образуя огромный кластер.
Снова вычислите близость в огромном кластере и объедините похожие кластеры.
Заключительный шаг включает в себя объединение всех полученных кластеров на каждом шаге, чтобы сформировать окончательный единый кластер.

2. Метод разбиения:

Основной целью раздела является перемещение. Они перемещают разделы, перемещаясь из одного кластера в другой, что делает первоначальное разделение. Он делит «n» объектов данных на «k» количество кластеров. Этот метод разделения предпочтительнее иерархической модели в распознавании образов. Следующие критерии установлены для удовлетворения методов:

Каждый кластер должен иметь один объект.
Каждый объект данных принадлежит одному кластеру.

Наиболее часто используемые методы разбиения - это алгоритм K-средних. Они делятся на «К» кластеры, представленные центроидами. Каждый центр кластера рассчитывается как среднее значение этого кластера, а функция R визуализирует результат. Этот алгоритм имеет следующие шаги:

Выбор K объектов случайным образом из набора данных и формирование начальных центров (центроидов)
Далее назначаем евклидово расстояние между объектами и средним центром.
Назначение среднего значения для каждого отдельного кластера.
Действия по обновлению Centroid для каждого кластера 'k'.

3. Модель плотности:

В этой модели кластеры определяются путем размещения областей более высокой плотности в кластере. Основным принципом, лежащим в их основе, является концентрация на двух параметрах: максимальный радиус окрестности и минимальное количество точек. Модель на основе плотности идентифицирует кластеры различной формы и шума. Он работает путем обнаружения паттернов путем оценки пространственного местоположения и расстояния до метода соседа, который здесь используется - DBSCAN (пространственная кластеризация на основе плотности), которая дает руки для больших пространственных баз данных. Использование трех точек данных для кластеризации, а именно: Точки ядра, Границы и выбросы. Основная задача - определить кластеры и параметры их распределения. Процесс кластеризации останавливается из-за необходимости в параметрах плотности. Чтобы найти кластеры, важно иметь параметр Минимальные характеристики на кластер при расчете расстояния до ядра. Эта модель предоставляет три различных инструмента: DBSCAN, HDBSCAN, Multi-scale.

4. Модельно-ориентированная кластеризация

Эта модель объединяет два или три кластера вместе из распределения данных. Основная идея этой модели состоит в том, что необходимо разделить данные на две группы на основе вероятностной модели (многомерное нормальное распределение). Здесь каждая группа назначается как понятие или класс. Каждый компонент определяется функцией плотности. Чтобы найти параметр в этой модели, для подбора распределения смеси используется оценка максимального правдоподобия. Каждый кластер «K» моделируется гауссовым распределением с двухпараметрическим вектором µ _k и вектором ковариации £ _k .

5. Грид-модель

В этом подходе объекты считаются управляемыми пространством путем разделения пространства на конечное число ячеек для формирования сетки. С помощью сетки метод кластеризации применяется для более быстрой обработки, которая обычно зависит от ячеек, а не от объектов. Шаги включают в себя:

Создание сеточной структуры
Плотность клеток рассчитывается для каждой клетки
Применяя механизм сортировки к их плотности.
Поиск кластерных центров и обход соседних ячеек, чтобы повторить процесс.

Важность методов кластеризации

Наличие методов кластеризации помогает перезапустить процедуру локального поиска и устранить неэффективность. Кластеризация помогает определить внутреннюю структуру данных.
Этот кластерный анализ был использован для модельного анализа векторной области притяжения.
Кластеризация помогает понять естественную группировку в наборе данных. Их цель состоит в том, чтобы иметь смысл разделить данные на некоторую группу логических группировок.
Качество кластеризации зависит от методов и выявления скрытых закономерностей.
Они играют широкую роль в таких приложениях, как маркетинговые экономические исследования, веб-блоги для определения закономерностей измерения сходства, обработки изображений, пространственных исследований.
Они используются при обнаружении выбросов для выявления мошенничества с кредитными картами.

Вывод

Кластеризация считается общей задачей для решения проблемы, которая формулирует проблему оптимизации. Он играет ключевую роль в области интеллектуального анализа данных и анализа данных. Мы видели разные методы кластеризации, которые делят набор данных в зависимости от требований. Большая часть исследований основана на традиционных методах, таких как K-средства и иерархические модели. Кластерные области применяются в высокоразмерных состояниях, что формирует область будущего исследования.

Методы кластеризации - Важность и методы кластеризации

Содержание:

Введение в методы кластеризации

Объяснить методы кластеризации?

1. Иерархический метод

2. Метод разбиения:

3. Модель плотности:

4. Модельно-ориентированная кластеризация

5. Грид-модель

Важность методов кластеризации

Вывод

Рекомендуемая статья

Создание типа на пути в фотошопе

Творческие эффекты виньетки с радиальным фильтром в Photoshop CC

Смешайте фотографии как голливудский постер фильма с Photoshop CS6

Новые более темные диалоговые окна в Photoshop CC 2015

Как прокрутить изображения с помощью Overscroll в Photoshop CC

Как объединить слои в Photoshop без выравнивания изображения

Кисти фотошопа Скрытые советы и подсказки

Восстановите устаревшую команду Free Transform в Photoshop CC 2019

Создание золотого текстового эффекта в Photoshop CC и CS6

Как превратить вашу кисть Photoshop в ластик

Ubuntu против Windows 10 - Знай 18 самых полезных отличий

Ubuntu против OpenSUSE - Узнайте 21 удивительную разницу

Альтернативы Ubuntu - Топ 6 лучших альтернатив Ubuntu на 2019 год

Top 10 UI Designer Interview Вопросы и ответы (Обновлено на 2019 г.)

Ubuntu против FreeBSD - 5 самых значимых отличий для изучения