Односторонний анализ отклонений

Дисперсионный анализ, кратко обозначенный как ANOVA, - это процедура, с помощью которой мы можем сравнивать средние значения для трех или более групп населения. По статистике, мы выдвигаем две гипотезы: нулевую гипотезу: «Все средства населения равны» и альтернативную гипотезу: «Не все средства населения равны». Это позволяет нам проверять равенство нескольких средних в одном тесте, а не сравнивать два средних за раз, что невозможно при наличии нескольких групп. В этой теме мы собираемся узнать об One Way ANOVA в R.

Односторонний анализ отклонений помогает нам анализировать только один фактор или переменную. Например, существует пять регионов, и мы хотим проверить, равны ли среднесуточные осадки во всех пяти регионах или они различны. В этом случае есть только один фактор, который является регионом, так как мы должны проверить, влияют ли региональные факторы на прием дождевых осадков и характер.

Допущения анализа дисперсии

Ниже приведены предположения, которые должны быть соблюдены для применения одностороннего ANOVA:

  • Популяции, из которых отбираются пробы, обычно распределяются.
  • Популяции, из которых взяты образцы, имеют одинаковую дисперсию или стандартное отклонение.
  • Образцы, взятые из разных популяций, являются случайными и независимыми.

Как работает One-Way ANOVA в R?

Для нашей демонстрации мы используем данные, которые содержат две переменные, а именно. Бренд и Продажи. Существует четыре бренда - ATB, JKV, MKL и PRQ. Ежемесячные продажи для этих брендов приведены. Нам нужно проверить, равны ли средние продажи по четырем брендам или они отличаются друг от друга. Чтобы убедиться в этом, мы будем использовать односторонний ANOVA. Пошаговая процедура для реализации ANOVA заключается в следующем:

  1. Сначала импортируйте данные в R. Данные представлены в формате CSV. Итак, для его импорта мы будем использовать функцию read.csv ().

  1. Просмотрите первые несколько записей данных. Это важно, чтобы проверить, правильно ли были импортированы данные в R. Аналогичным образом, мы будем применять к данным функцию summary (), чтобы получить базовое представление о данных.

  1. Каждый раз, когда мы используем переменные, представленные в наборе данных, нам необходимо явно упомянуть имя набора данных, например brand_sales_data $ Brand или brand_sales_data $ Sales. Чтобы преодолеть это, мы будем использовать функцию присоединения. Функция должна быть применена, как показано ниже.

  1. Давайте агрегируем продажи по брендам, используя среднее или стандартное отклонение. Агрегирование помогает нам получить базовое представление о данных.

Приведенный выше результат показывает, что средства для четырех разных групп не равны. У JKV самые высокие средние продажи.

Как видно из вышеизложенного, стандартные отклонения по четырем группам не показывают существенных различий и являются самыми высокими для бренда MKL.

  1. Теперь мы применим ANOVA для проверки того, равны ли средние значения для трех групп населения или существует ли какая-либо разница.

Из приведенных выше результатов видно, что тест ANOVA для бренда является значимым из-за р <0, 0001. Мы можем интерпретировать, что все бренды не имеют одинаковых уровней предпочтений на рынке, что влияет на продажу этих брендов на рынке. Это может быть связано со многими факторами и симпатиями людей к определенному бренду.

  1. Приведенный выше результат можно визуализировать, что облегчает интерпретацию. Для этого мы будем использовать функцию plotmeans () в библиотеке gplots (). Это работает как показано ниже:

Как мы видим выше, функция plotmeans () в пакете gplots позволяет нам визуально сравнивать средства разных групп. Мы видим, что средства не одинаковы для всех четырех брендов. Однако средства для брендов MKL и PRQ падают с близкого расстояния.

  1. Приведенный выше анализ помогает нам проверить, имеют ли бренды равные средства или нет, однако сделать парное сравнение с ним сложно. Мы можем проводить парные сравнения для разных брендов, используя функцию TukeyHSD (), которая облегчает проверку, существенно ли отличается бренд от любого из оставшихся.

Парные сравнения, как указано выше. Разница между любыми двумя группами значительна, если р <0, 001. Как мы видим выше, значение p для пары PRQ-MKL намного выше, что указывает на то, что эти два бренда существенно не отличаются друг от друга.

Чтобы визуализировать парные сравнения, мы построим приведенные выше результаты, как показано ниже:

Первая функция par поворачивает метки осей, делая их горизонтальными, а вторая инструкция par корректирует поля так, чтобы метки подходили правильно, иначе они исчезнут с экрана.

Приведенный выше график предлагает хорошее понимание, но мы можем отобразить результаты в виде коробочного графика, чтобы получить лучшее представление для более четкой интерпретации, как показано ниже.

Функция glht (), использованная выше, поставляется с полным набором методов для сравнения нескольких средних. Обратите внимание, что опция уровня в функции cld () относится к уровню значимости, например, 0, 05 или 95% достоверности)

Используя приведенный выше график, становится легко сравнивать средства по группам, а также облегчает систематическую интерпретацию. Над верхней частью графика есть буквы для каждой марки. Если две марки имеют одинаковую букву, значит, они не имеют значительных различий в качестве марок MKL и PRQ в этом случае, имеющих одинаковую букву b.

  1. До сих пор мы внедряли ANOVA и использовали графики для визуализации результатов. Тем не менее, не менее важно проверить предположения. Сначала мы проверим предположение о нормальности.

Пакет автомобилей в R предоставляет функцию qqPlot (). Приведенный выше график показывает, что данные находятся в пределах 95% доверительного охвата. Это указывает на то, что предположение о нормальности почти выполнено.

Далее мы проверим, равны ли различия между брендами. Для этого мы будем использовать тест Бартлетта

Значение р показывает, что отклонения по группе не отличаются значительно

И последнее, но не менее важное: мы проверим, есть ли какие-либо выбросы, которые влияют на результаты ANOVA.

Из приведенного выше результата видно, что в данных нет указаний на выбросы (NA возникает, когда p> 1)

Принимая во внимание результаты QQ Plot, теста Бартлетта и теста Outlier, мы можем сказать, что данные соответствуют всем допущениям ANOVA и полученные результаты являются действительными.

Вывод - One Way ANOVA в R

ANOVA - это очень удобный статистический метод, который можно использовать для сравнения средних показателей в разных популяциях. R предлагает широкий спектр пакетов для реализации ANOVA, получения результатов и проверки допущений. В R статистические результаты можно интерпретировать в визуальных формах, которые предлагают более глубокое понимание.

Рекомендуемые статьи

Это руководство к One Way ANOVA в R. Здесь мы обсуждаем, как работает One-Way ANOVA и Допущения анализа дисперсии. Вы также можете взглянуть на следующие статьи, чтобы узнать больше -

  1. Язык программирования R
  2. Регрессия против ANOVA
  3. Как интерпретировать результаты с помощью теста ANOVA
  4. GLM в R