Обзор типов кластеризации

Прежде чем приступить к изучению кластеризации, давайте разберемся, что такое кластеризация и почему она так важна в индустрии машинного обучения.

Что такое кластеризация? Кластеризация - это процесс, в котором алгоритм разделяет точки данных на заданное количество групп, основываясь на том принципе, что сходные точки данных остаются близко друг к другу и попадают в одну группу.

Почему это так важно сейчас? Давайте поймем, что, например, на примере есть интернет-магазин одежды, и они хотят лучше понять своих клиентов, чтобы сделать свою рекламную стратегию более эффективной. Они не могут иметь уникальную стратегию для каждого клиента, вместо этого они могут разделить клиентов на определенное количество групп (на основе их предыдущих покупок) и разработать отдельную стратегию для отдельных групп. Это делает бизнес более эффективным, поэтому кластеризация сейчас важна для отрасли.

Типы кластеризации

В общих чертах методы кластеризации классифицируются на два типа: жесткие и мягкие методы. В методе жесткой кластеризации каждая точка данных или наблюдение принадлежит только одному кластеру. В методе мягкой кластеризации каждая точка данных не будет полностью принадлежать одному кластеру, вместо этого она может быть членом более чем одного кластера, у нее есть набор коэффициентов членства, соответствующих вероятности нахождения в данном кластере.

В настоящее время используются различные типы методов кластеризации, здесь в этой статье мы рассмотрим некоторые из важных, таких как иерархическая кластеризация, кластеризация с разделением, нечеткая кластеризация, кластеризация на основе плотности и кластеризация на основе модели распределения. Теперь давайте обсудим каждый из них на примере:

1. Разделение кластеров

Секционирование Кластеризация - это тип техники кластеризации, которая делит набор данных на определенное количество групп. (Например, значение K в KNN и будет принято решение, прежде чем мы обучим модель). Его также можно назвать методом, основанным на центроиде. При таком подходе центр кластера (центроид) формируется таким образом, чтобы расстояние точек данных в этом кластере было минимальным при расчете с другими центроидами кластера. Наиболее популярным примером этого алгоритма является алгоритм KNN. Вот как выглядит алгоритм кластеризации разбиения

2. Иерархическая кластеризация

Иерархическая кластеризация - это тип техники кластеризации, которая разделяет этот набор данных на несколько кластеров, где пользователь не указывает количество кластеров, которые должны быть сгенерированы перед обучением модели. Этот тип техники кластеризации также известен как основанные на соединении методы. В этом методе простое разбиение набора данных не будет выполнено, тогда как оно предоставляет нам иерархию кластеров, которые сливаются друг с другом через определенное расстояние. После того, как иерархическая кластеризация будет выполнена на наборе данных, результатом будет представление точек данных на основе дерева (дендограмма), которые разделены на кластеры. Так выглядит иерархическая кластеризация после обучения

Ссылка на источник: Иерархическая кластеризация

В кластеризации с разделением и иерархической кластеризации одно основное отличие, которое мы можем заметить, заключается в том, что при разбиении на кластеры мы предварительно укажем значение количества кластеров, на которое мы хотим разделить набор данных, и мы не будем предварительно указывать это значение в иерархической кластеризации.,

3. Плотность на основе кластеризации

В этой кластеризации технические кластеры будут формироваться путем разделения областей различной плотности на основе различных плотностей в графике данных. Пространственная кластеризация на основе плотности и применение с шумом (DBSCAN) является наиболее часто используемым алгоритмом в этом типе техники. Основная идея этого алгоритма заключается в том, что для каждой точки в кластере должно быть минимальное количество точек, содержащихся в окрестности заданного радиуса. До сих пор в рассмотренных выше методах кластеризации, если вы внимательно наблюдаете, мы можем заметить одну общую черту во всех методах, которые имеют форму сформированных кластеров, либо сферической, либо овальной, либо вогнутой формы. DBSCAN может формировать кластеры различной формы, этот тип алгоритма наиболее подходит, когда набор данных содержит шум или выбросы. Так выглядит алгоритм пространственной кластеризации на основе плотности после завершения обучения.

Ссылка на источник: кластеризация на основе плотности

4. Кластеризация на основе модели распределения

В этом типе кластеризации технические кластеры формируются путем идентификации по вероятности того, что все точки данных в кластере исходят из одного и того же распределения (нормальное, гауссовское). Наиболее популярным алгоритмом в этом типе техники является кластеризация с максимизацией ожиданий (EM) с использованием моделей гауссовой смеси (GMM).

Обычные методы кластеризации, такие как иерархическая кластеризация и кластеризация секционирования, не основаны на формальных моделях, KNN в кластеризации секционирования дает разные результаты с разными значениями K. Поскольку KNN и KMN рассматривают среднее значение для центра кластера, в некоторых случаях с гауссовыми моделями смесей оно не подходит лучше всего, мы предполагаем, что точки данных распределены по Гауссу, таким образом, у нас есть два параметра для описания формы среднего значения кластеров и стандартного отклонения. Таким образом, для каждого кластера назначается одно распределение Гаусса, чтобы получить оптимальные значения этих параметров (среднее и стандартное отклонение), используется алгоритм оптимизации, называемый максимизацией ожиданий. Так выглядит EM - GMM после тренировки.

Ссылка на источник: кластеризация на основе модели распределения

5. Нечеткая кластеризация

Принадлежит к ветви методов кластеризации мягких методов, тогда как все вышеупомянутые методы кластеризации относятся к методам кластеризации жестких методов. В этом типе техники кластеризации точки расположены ближе к центру, возможно, являются частью другого кластера в большей степени, чем точки на краю того же кластера. Вероятность точки, принадлежащей данному кластеру, составляет от 0 до 1. Наиболее популярным алгоритмом в этом типе техники является FCM (алгоритм нечетких C-средних). Здесь центроид кластера вычисляется как среднее значение. всех точек, взвешенных по вероятности их принадлежности к кластеру.

Вывод - Типы кластеризации

Это некоторые из различных методов кластеризации, которые используются в настоящее время, и в этой статье мы рассмотрели один популярный алгоритм в каждой технике кластеризации. Мы должны выбрать тип технологии, которую мы используем, основываясь на нашем наборе данных и требованиях, которые мы должны выполнить.

Рекомендуемые статьи

Это было руководство по типам кластеризации. Здесь мы обсуждаем различные типы кластеризации с их примерами. Вы также можете взглянуть на следующие статьи, чтобы узнать больше -

  1. Иерархический кластерный алгоритм
  2. Кластеризация в машинном обучении
  3. Типы алгоритмов машинного обучения
  4. Типы методов анализа данных
  5. Как использовать и удалить иерархию в таблице?
  6. Полное руководство по типам анализа данных