Кластеризация в машинном обучении - Лучшие методы и приложения

Содержание:

Anonim

Введение в кластеризацию в машинном обучении

Сначала мы поймем машинное обучение. Мы видим, как быстро растут данные вокруг нас. Данные поступают в разных формах, таких как видео, аудио, изображения и т. Д. Кластеризация в машинном обучении использует эти данные для ответа на вопрос. Например (обнаружение кожного заболевания), врач использует машинное обучение, чтобы понять след на коже, и прогнозирует, что это за заболевание. Кластеризация - это не что иное, как группировка немаркированных наборов данных. Давайте возьмем пример вашего фильма (вы хотите посмотреть). Вам могут понравиться романтические фильмы, но ваша сестра любит комедийные фильмы. Вам могут понравиться романтические фильмы Болливуда или романтические фильмы Голливуда. Но вашей сестре нравятся комедийные фильмы Телегу, здесь вы можете увидеть себя, и у вашей сестры есть другой выбор фильмов. Вы оба обнаружили глубинную информацию о фильмах. Здесь мы сгруппировали немаркированный набор данных (фильмы) для просмотра фильма.

Как работает кластеризация в машинном обучении?

При кластеризации мы группируем набор данных без меток, который называется обучением без учителя. Когда мы сначала группируем немеченые данные, нам нужно найти похожую группу. Когда мы создаем группу, нам нужно понимать особенности наборов данных, то есть похожих вещей. Если мы создадим группу по одной или двум функциям, легко измерить сходство.

  • Пример № 1: Фильмы режиссера. После завершения кластеризации каждому кластеру назначается номер кластера, который называется ClusterID. Система машинного обучения, такая как YouTube, использует clusterID для наиболее простого представления сложных данных.
  • Пример # 2: YouTube использует нашу историю поиска или просмотренную историю и предлагает видео, которые нам могут понравиться. Набор данных функций для Facebook содержит людей, за которыми мы следим, страницы, за которыми мы следим, комментарии, которые мы вводим, фотографии или видео, которые нам нравятся, изображения или фотографии, на которые мы ставим теги. Кластеризация видео или фото на Facebook заменит набор функций с одним clusterID из-за сжатия данных.

Лучшие 4 метода кластеризации в машинном обучении

Ниже приведены методы кластеризации в машинном обучении:

1. Иерархический

Кластеризация имен определяет способ работы, этот метод иерархически формирует кластер. Новый кластер формируется с использованием ранее сформированной структуры. Нам нужно понять различия между разделительным подходом и агломеративным подходом. Агломеративный подход - восходящий, он начинается с отдельных точек в кластере и объединяет некоторые произвольные. Разделение начинается с одного кластера, все точки в кластере и делит его на несколько кластеров.

2. Плотность

В этом методе плотная область рассматривается как кластер, имеющий некоторые сходства. Он отличается от нижней плотной области пространства объекта. DBSCAN известен как пространственная кластеризация приложений на основе плотности с шумом. Для объектной ориентации данных DBSCAN ищет некоторые эпсилоны, мы устанавливаем некоторый радиус эпсилона и минимальное количество точек. В пределах радиуса, если мы превзойдем некоторое минимальное количество точек, мы оцениваем кластер с высокой плотностью. Таким образом, таким образом мы можем рассматривать данные с областью высокой плотности. DBSCAN отличается от централизованного метода кластеризации, поскольку не является строгим подходом. Точки шума - это точки в областях с низкой плотностью, которые остаются немаркированными или помечены как выбросы. По этой причине нам не требуется конкретный K. Мы можем указать минимальные точки для области высокой плотности и радиуса, которые мы хотим, чтобы область была или кластеры были.

3. Разделение

Когда у нас есть набор данных N количество объектов. Этот метод создает «К» как раздел данных. Это разбиение является кластером, т. Е. Построить K, разбиение (K <= N).

Требования, которые должны быть выполнены:

  • Каждая группа или набор данных должны содержать хотя бы один объект.
  • Каждый объект должен принадлежать только одной группе.

Одним из примеров разбиения является кластеризация K-средних.

4. Сетка на основе

Пространство объекта, конечное число ячеек, образует сеточную структуру. Этот метод обеспечивает быструю обработку кластера. Они не зависят от пространства объекта.

Применение кластеризации в машинном обучении

Ниже приведены применения кластеризации в машинном обучении:

1. Медицинский

Врач может использовать алгоритм кластеризации, чтобы найти обнаружение заболевания. Давайте возьмем пример заболевания щитовидной железы. Набор данных о заболеваниях щитовидной железы может быть идентифицирован с использованием алгоритма кластеризации, когда мы применяем неконтролируемое обучение к набору данных, который содержит набор данных о щитовидной и не щитовидной железах. Кластеризация позволит определить причину заболевания и даст успешный результат поиска.

2. Социальная сеть

Мы - поколение эпохи Интернета, мы можем встретиться с любым человеком или узнать о какой-либо индивидуальности через Интернет. Сайты социальных сетей используют кластеризацию для понимания содержания, лица людей или местоположения пользователя. Когда неконтролируемое обучение используется в социальных сетях, оно полезно для перевода языка. Например, Instagram и Facebook предоставляют возможность перевода языка.

3. Маркетинг

Мы можем видеть или наблюдать, что различные технологии растут рядом с нами, и люди привлекают использовать эти технологии, такие как облачный, цифровой маркетинг. Чтобы привлечь большее количество клиентов, каждая компания разрабатывает простые в использовании функции и технологии. Чтобы понять клиента, мы можем использовать кластеризацию. Кластеризация поможет компании понять пользовательский сегмент, а затем классифицировать каждого клиента. Таким образом, мы можем понять клиента и найти сходства между клиентами и сгруппировать их.

4. Банковское дело

Мы заметили, что вокруг нас происходит обман денег, и компания предупреждает клиентов об этом. С помощью кластеризации страховые компании могут находить мошенников, узнавать о них клиентов и понимать политику, предложенную клиентом.

5. Google

Google - одна из поисковых систем, которую используют люди. Давайте рассмотрим пример, когда мы ищем некоторую информацию, такую ​​как зоомагазин в этом районе, Google предоставит нам различные варианты. Это результат кластеризации, кластеризации аналогичного результата, который предоставляется вам.

Вывод

Мы узнали о кластеризации и машинном обучении. Способ кластеризации работает в машинном обучении. Информация о неконтролируемом обучении. Использование в режиме реального времени обучения без учителя. Методы кластеризации и как каждый метод работает в машинном обучении.

Рекомендуемая статья

Это руководство по кластеризации в машинном обучении. Здесь мы обсуждаем 4 лучших метода кластеризации в машинном обучении вместе с приложениями. Вы также можете просмотреть наши другие предлагаемые статьи, чтобы узнать больше -
  1. Каркас машинного обучения Top 10
  2. Алгоритм кластеризации K-средних с преимуществами
  3. Введение в техники машинного обучения
  4. Модели машинного обучения | Топ 5 типов
  5. Библиотека машинного обучения C ++