Разница между регрессией и классификацией

В этой статье «Регрессия против классификации», давайте обсудим ключевые различия между регрессией и классификацией. Машинное обучение широко подразделяется на два типа: машинное обучение под наблюдением и машинное обучение без присмотра. В контролируемом машинном обучении у нас есть известное выходное значение в наборе данных, и мы обучаем модель на его основе и используем ее для прогнозирования, тогда как в неконтролируемом машинном обучении у нас нет известного набора выходных значений. Заранее, чтобы провести различие между классификацией и регрессией, давайте разберемся, что означает эта терминология в машинном обучении. Регрессия - это алгоритм в контролируемом машинном обучении, который можно обучить для прогнозирования выходных данных действительного числа. Классификация - это алгоритм в контролируемом машинном обучении, который обучается определять категории и предсказывать, к какой категории они относятся, для новых значений.

Сравнение лицом к лицу между регрессией и классификацией (инфографика)

Ниже приведено 5 лучших сравнений регрессии и классификации :

Ключевые различия между регрессией и классификацией

Давайте обсудим некоторые ключевые различия между регрессией и классификацией в следующих пунктах:

  1. Классификация - это предсказание метки или категории. Алгоритм классификации классифицирует требуемый набор данных в одну из двух или более меток, алгоритм, который работает с двумя классами или категориями, известен как двоичный классификатор, и, если имеется более двух классов, его можно назвать алгоритмом классификации нескольких классов.
  2. Регрессия - это поиск оптимальной функции для определения данных о непрерывных реальных значениях и прогнозирования этой величины. Регрессия с несколькими переменными в качестве входных данных или функций для обучения алгоритму известна как проблема многомерной регрессии. Если в задаче регрессии входные значения зависят или упорядочены по времени, то это называется проблемой прогнозирования временных рядов.
  3. Однако модель классификации также будет прогнозировать непрерывное значение, которое представляет собой вероятность наступления события, принадлежащего этому соответствующему выходному классу. Здесь вероятность события представляет вероятность данного примера, принадлежащего определенному классу. Прогнозируемое значение вероятности может быть преобразовано в значение класса путем выбора метки класса, которая имеет наибольшую вероятность.
  4. Давайте лучше разберемся в этом, увидев пример, предположим, что мы обучаем модель, чтобы предсказать, будет ли у человека рак или нет, основываясь на каких-то особенностях. Если мы получим вероятность того, что у человека рак будет равен 0, 8, а рак не равен 0, 2, мы можем преобразовать вероятность 0, 8 в метку класса, у которой рак, поскольку он имеет наибольшую вероятность.
  5. Как упоминалось выше в классификации, чтобы увидеть, насколько хорошо работает модель классификации, мы рассчитываем точность. Давайте посмотрим, как выполняется вычисление, точность классификации можно выполнить, взяв отношение правильных прогнозов к общему количеству прогнозов, умноженному на 100. Если сделано 50 прогнозов и 10 из них верны, а 40 неверны, то точность будет 20 %.

Точность = (Количество правильных прогнозов / Общее количество прогнозов) * (100)

  • Точность = (10/50) * (100)
  • Точность = 20%
  1. Как упоминалось выше в регрессии, чтобы увидеть, насколько хорошо регрессионная модель работает, наиболее популярным способом является вычисление среднеквадратической ошибки (RMSE). Посмотрим, как будет выполняться расчет.

Прогнозируемое значение модели регрессии составляет 4, 9, тогда как фактическое значение составляет 5, 3.

Прогнозируемое значение регрессионной модели составляет 2, 3, тогда как фактическое значение составляет 2, 1.

Прогнозируемое значение модели регрессии составляет 3, 4, тогда как фактическое значение составляет 2, 9.

Теперь Root означает квадратную ошибку, которую можно рассчитать по формуле.

Квадрат ошибки: (5.3-4.9) 2 = 0.16, (2.1-2.3) 2 = 0.04, (2.9-3.4) 2 = 0.25

Среднее квадрата ошибки = 0, 45 / 3 = 0, 15

Среднеквадратичная ошибка = квадратный корень из 0, 15 = 0, 38

Это RMSE = 0, 38. Есть много других методов для расчета эффективности модели, но RMSE является наиболее используемым, потому что RMSE предлагает оценку ошибки в тех же единицах, что и прогнозируемое значение.

Примеры:

Большинство инженеров-исследователей данных сталкиваются с трудностями выбора между регрессией и классификацией на начальной стадии своей карьеры. Чтобы упростить задачу, давайте посмотрим, как выглядят проблемы классификации и как выглядят проблемы регрессии.

классификация

  1. Прогнозирование, будет ли дождь или нет завтра.
  2. Прогнозирование человека должно покупать этот товар или не приносить прибыль.
  3. Прогнозирование, если у человека есть болезнь или нет.

Если вы заметили, что для каждой ситуации здесь может быть либо Да, либо Нет в качестве прогнозируемого выходного значения.

регрессия

  1. Прогнозирование цены на землю.
  2. Прогнозирование цены акций.

Если вы заметили, что для каждой ситуации здесь большинство из них имеют числовое значение в качестве прогнозируемого результата.

Сравнительная таблица регрессии и классификации

Таблица ниже суммирует сравнения между регрессией и классификацией :

параметр регрессия

классификация

Тип функции отображенияВ этих алгоритмах будет выбрана функция отображения типа, который может выравнивать значения с непрерывным выводом.В этих алгоритмах будет выбрана функция отображения типа, который может выравнивать значения с предопределенными классами.
Включает в себя прогнозированиеДля алгоритмов этого типа прогнозируемые данные относятся к категории непрерывных значений.

(Как 23, 34, 45, 67, 28)

Для этого типа алгоритма прогнозируемые данные принадлежат к категории дискретных значений.

(Как «Да» или «Нет», относится к «А» или «В» или «С»).

Метод расчетаСреднеквадратическая ошибка будет рассчитана для определения наилучшего соответствия набора данных.Точность будет рассчитана для определения наилучшего соответствия набора данных.
Природа прогнозируемых данныхХарактер прогнозируемых данных упорядочен. (То есть предсказанные значения будут в некоторой последовательности).Природа прогнозируемых данных неупорядочена. (То есть предсказанные значения не будут в какой-либо последовательности).
АлгоритмыПоддержка векторной регрессии и деревьев регрессии также известны как случайный лес, которые являются одними из популярных примеров алгоритмов регрессии.Наивный байесовский алгоритм, деревья решений и K Nearest Neighbours являются одними из популярных примеров алгоритмов классификации.

Вывод

Вот некоторые из ключевых различий между классификацией и регрессией. В некоторых случаях прогнозируемые в регрессии непрерывные выходные значения можно сгруппировать в метки и изменить в классификационные модели. Таким образом, мы должны четко понимать, какой из них выбрать в зависимости от ситуации, и каким мы хотим получить прогнозируемый результат.

Рекомендуемые статьи

Это руководство по разнице между регрессией и классификацией. Здесь мы также обсудим ключевые отличия регрессии от классификации с помощью инфографики и таблицы сравнения. Вы также можете взглянуть на следующие статьи, чтобы узнать больше -

  1. 7 лучших типов шифров
  2. Что такое StringBuilder в C # с преимуществами
  3. StringBuffer против StringBuilder | Топ 4 Сравнение
  4. Основные отличия - Jira vs Github
  5. Что такое регрессионный анализ?
  6. Многомерная регрессия
  7. Алгоритмы классификации
  8. Создать дерево решений с преимуществами