Что такое регрессионный анализ? - Типы и преимущества регрессионного анализа

Содержание:

Anonim

Введение в регрессионный анализ

Регрессионный анализ - это алгоритм прогнозного моделирования, позволяющий предсказать исход переменной и определить переменные (независимые переменные), которые вносят вклад или зависят от исходной переменной (целевой или зависимой переменной). Проще говоря, это метод, позволяющий найти взаимосвязь между независимыми и зависимыми переменными для получения результата. Это просто использовать и интерпретировать результат. Есть много типов методов регрессии, которые широко используются в различных секторах. Некоторые примеры регрессии - это прогнозирование зарплаты сотрудника или дохода компании за год.

Как работал регрессионный анализ?

Есть много типов методов регрессии, которые используются с учетом различных факторов и результатов.

  • Линейная регрессия
  • Логистическая регрессия
  • Лассо / Ридж Регресс
  • Полиномиальная регрессия

Некоторые из важных статистических регрессионных тестов, которые используются в различных секторах, приведены ниже:

1. Линейная регрессия

Это используется, когда итоговая переменная линейно зависит от независимых переменных. Обычно он используется, когда у нас нет большого набора данных. Он также чувствителен к выбросам, поэтому, если набор данных содержит выбросы, лучше их обработать перед применением линейной регрессии. Существуют методики регрессии с одной и несколькими переменными. Простая линейная регрессия - это анализ, когда итоговая переменная линейно зависит от одной независимой переменной. Простая линейная регрессия следует уравнению прямой линии, которое приведено ниже:

Y=mx+c

Где,

Y = целевая, зависимая или переменная критерия

x = независимая или предикторная переменная

m = Коэффициент наклона или регрессии

с = постоянная

Линейная регрессия с несколькими переменными определяет взаимосвязь между конечной переменной и несколькими независимыми переменными. Ниже следует уравнение прямой линии, где зависимые переменные являются линейной комбинацией всех независимых переменных:

Y= m1x1+m2x2+m3x3+…mnan+c

Где,

Y = целевая, зависимая или переменная критерия

x1, x2, x3… xn = независимые переменные или предикторы

m1, m2, m3… mn = Коэффициенты наклона или регрессии соответствующих переменных

с = постоянная

Линейная регрессия следует принципу метода наименьших квадратов. Этот метод утверждает, что линия наилучшего соответствия выбирается путем минимизации суммы квадратов ошибок. Линия наилучшего соответствия выбирается там, где сумма квадратических ошибок между наблюдаемыми данными и линией минимальна.

Есть некоторые предположения, о которых следует позаботиться, прежде чем применять линейную регрессию к набору данных.

  • Должна быть линейная связь между независимыми и зависимыми переменными.
  • Не должно быть никакой или небольшой мультиколлинеарности между независимыми переменными. Мультиколлинеарность определяется как явление, при котором существует высокая корреляция между независимыми переменными. Мы можем рассматривать мультиколлинеарность, отбрасывая одну переменную, которая коррелирует или рассматривает две переменные как одну переменную.
  • Гомоскедастичность: определяется как состояние, в котором термины ошибок должны быть случайным образом распределены по линии в регрессионном анализе. Не должно быть никакого шаблона через линию, если есть некоторый идентифицированный образец, чем данные, как говорят, являются гетероскедастичными.
  • Все переменные должны быть нормально распределены, что мы видим при построении графика QQ. Если данные обычно не распространяются, мы можем использовать любые методы нелинейного преобразования для их обработки.

Таким образом, всегда желательно проверять допущения при применении линейной регрессии для получения хорошей точности и правильного результата.

2. Логистическая регрессия

Этот метод регрессии используется, когда целевая или исходная переменная носит категориальный или двоичный характер. Основное различие между линейной и логистической регрессией заключается в целевой переменной, в линейной регрессии она должна быть непрерывной, тогда как в логистике она должна быть категориальной. Переменная результата должна иметь только два класса, не более того. Некоторыми примерами являются фильтры спама в электронных письмах (спам или нет), обнаружение мошенничества (мошенничество / не мошенничество) и т. Д. Он работает по принципу вероятности. Его можно классифицировать на две категории, установив пороговое значение.

Например: если есть две категории A, B и мы установили пороговое значение равным 0, 5, то вероятность выше 0, 5 будет считаться одной категорией, а ниже 0, 5 будет другой категорией. Логистическая регрессия следует S-образной кривой. Перед построением модели логистической регрессии мы должны разделить набор данных на обучение и тестирование. Поскольку целевая переменная является категориальной или двоичной, мы должны убедиться, что в обучающем наборе есть правильный баланс классов. Если есть дисбаланс класса, то это можно лечить, используя различные методы, как указано ниже:

  • Сэмплирование с повышением частоты: в этом методе выборка класса, который имеет меньше строк, соответствует количеству строк в классе большинства.
  • Сэмплирование с понижением : в этом методе выборка класса, который имеет больше строк, соответствует количеству строк класса меньшинства.

Есть несколько важных моментов, которые важно понять, прежде чем применять модель логистической регрессии к наборам данных:

  • Целевая переменная должна быть двоичной по своей природе. Если в целевой переменной более 2 классов, это называется многочленной логистической регрессией .
  • Не должно быть никакой или небольшой мультиколлинеарности между независимыми переменными.
  • Для работы требуется огромный размер выборки.
  • Между независимыми переменными и журналом шансов должна быть линейная связь.

Преимущества регрессии

Есть много преимуществ регрессионного анализа. Вместо того, чтобы рассматривать наше внутреннее чувство и предсказывать результат, мы можем использовать регрессионный анализ и показывать действительные баллы для возможных результатов.

Некоторые из них перечислены ниже:

  • Прогнозировать продажи и выручку в любом секторе на более короткие или длительные периоды.
  • Предсказать скорость оттока клиентов в любой отрасли и найти подходящие меры по их снижению.
  • Для понимания и прогнозирования уровня запасов на складе.
  • Чтобы узнать, будет ли успешным внедрение нового продукта на рынке.
  • Чтобы предсказать, будет ли любой клиент по умолчанию кредит или нет.
  • Предсказать, будет ли какой-либо клиент покупать товар или нет.
  • Обнаружение мошенничества или спама

Вывод

Существуют различные метрики оценки, которые учитываются после применения модели. Хотя существуют предположения, которые необходимо проверить перед применением модели, мы всегда можем изменить переменные, используя различные математические методы, и повысить производительность модели.

Рекомендуемые статьи

Это руководство по регрессионному анализу. Здесь мы обсуждаем Введение в регрессионный анализ, как работает регрессионный анализ и преимущества регрессии. Вы также можете просмотреть наши другие предлагаемые статьи, чтобы узнать больше -

  1. Линейный регрессионный анализ
  2. Инструменты анализа данных
  3. Инструменты регрессионного тестирования
  4. Аналитика больших данных
  5. Регрессия против Классификации | Основные ключевые отличия