Графики в R - Типы графиков в R & Примеры с реализацией

Содержание:

Anonim

Введение в графики в R

График - это инструмент, который существенно влияет на анализ. Графики в Rare важны, поскольку они помогают представить результаты в наиболее интерактивном виде. R, как пакет статистического программирования, предлагает широкие возможности для создания различных графиков.

Некоторые из графиков в R доступны в базовой установке, но другие можно использовать, установив необходимые пакеты. Уникальная особенность графиков в R состоит в том, что они объясняют сложные статистические результаты посредством визуализаций. Так что, по сути, это похоже на шаг над традиционным способом визуализации данных. Таким образом, R предлагает нестандартный подход к анализу.

Типы графиков в R

Разнообразные графики доступны в R, и использование зависит исключительно от контекста. Тем не менее, исследовательский анализ требует использования определенных графиков в R, которые должны использоваться для анализа данных. Теперь мы рассмотрим некоторые из таких важных графов в R.

Для демонстрации различных диаграмм мы будем использовать набор данных «дерева», доступный в базовой установке. Более подробную информацию о наборе данных можно найти с помощью? деревья командуют в Р.

1. Гистограмма

Гистограмма - это графический инструмент, работающий с одной переменной. Многочисленные значения переменных сгруппированы в ячейки, и рассчитывается ряд значений, называемых частотой. Этот расчет затем используется для построения частотных баров в соответствующих бобах. Высота стержня представлена ​​частотой.

В R мы можем использовать функцию hist (), как показано ниже, для генерации гистограммы. Простая гистограмма высоты деревьев показана ниже.

Код:

hist(trees$Height, breaks = 10, col = "orange", main = "Histogram of Tree heights", xlab = "Height Bin")

Выход:

Чтобы понять тенденцию частоты, мы можем добавить график плотности над гистограммой выше. Это позволяет лучше понять распределение данных, асимметрию, эксцесс и т. Д. Следующий код делает это, и выходные данные отображаются после кода.

Код:

hist(trees$Height, breaks = 10, col = "orange",
+ main = "Histogram of Tree heights with Kernal Denisty plot",
+ xlab = "Height Bin", prob = TRUE)

Выход:

2. Scatterplot

Этот график представляет собой простой тип диаграммы, но очень важный, имеющий огромное значение. Диаграмма дает представление о корреляции между переменными и является удобным инструментом в исследовательском анализе.

Следующий код генерирует простую диаграмму Scatterplot. Мы добавили к нему линию тренда, чтобы понять тренд, который представляют данные.

Код:

attach(trees)
plot(Girth, Height, main = "Scatterplot of Girth vs Height", xlab = "Tree Girth", ylab = "Tree Height")
abline(lm(Height ~ Girth), col = "blue", lwd = 2)

Выход:

Диаграмма, созданная с помощью следующего кода, показывает, что существует хорошая корреляция между обхватом дерева и объемом дерева.

Код:

plot(Girth, Volume, main = "Scatterplot of Girth vs Volume", xlab = "Tree Girth", ylab = "Tree Volume")
abline(lm(Volume ~ Girth), col = "blue", lwd = 2)

Выход:

Матрицы рассеяния

R позволяет нам сравнивать несколько переменных одновременно, потому что он использует матрицы рассеяния. Реализация визуализации довольно проста и может быть достигнута с помощью функции pair (), как показано ниже.

Код:

pairs(trees, main = "Scatterplot matrix for trees dataset")

Выход:

Scatterplot3d

Они делают возможной визуализацию в трех измерениях, которые могут помочь понять взаимосвязь между несколькими переменными. Таким образом, чтобы сделать scatterplots доступными в 3d, сначала нужно установить пакет scatterplot3d. Итак, следующий код генерирует трехмерный график, как показано ниже кода.

Код:

library(scatterplot3d)
attach(trees)
scatterplot3d(Girth, Height, Volume, main = "3D Scatterplot of trees dataset")

Выход:

Мы можем добавить выпадающие линии и цвета, используя код ниже. Теперь мы можем удобно различать разные переменные.

Код:

scatterplot3d(Girth, Height, Volume, pch = 20, highlight.3d = TRUE,
+ type = "h", main = "3D Scatterplot of trees dataset")

Выход:

3. Boxplot

Boxplot - это способ визуализации данных через ящики и усы. Сначала значения переменных сортируются в порядке возрастания, а затем данные делятся на кварталы.

Рамка на графике представляет собой средние 50% данных, известных как IQR. Черная линия на коробке обозначает медиану.

Код:

boxplot(trees, col = c("yellow", "red", "cyan"), main = "Boxplot for trees dataset")

Выход:

Вариант коробочного участка с выемками показан ниже.

Код:

boxplot(trees, col = "orange", notch = TRUE, main = "Boxplot for trees dataset")

Выход:

4. Линейная диаграмма

Линейные диаграммы полезны при сравнении нескольких переменных. Они помогают нам отношения между несколькими переменными в одном графике. На следующем рисунке мы попытаемся понять тенденцию трех древовидных элементов. Итак, как показано в приведенном ниже коде, изначально и линейный график для обхвата строится с использованием функции plot (). Затем линейные графики для высоты и объема строятся на одном графике с помощью функции lines ().

Параметр «ylim» в функции plot () предназначен для правильного размещения всех трех линейных диаграмм. Здесь важно иметь легенду, поскольку она помогает понять, какая строка представляет какую переменную. В легенде параметр «lty = 1: 1» означает, что у нас одинаковый тип линии для всех переменных, а «cex» представляет размер точек.

Код:

plot(Girth, type = "o", col = "red", ylab = "", ylim = c(0, 110),
+ main = "Comparison amongst Girth, Height, and Volume of trees")
lines(Height, type = "o", col = "blue")
lines(Volume, type = "o", col = "green")
legend(1, 110, legend = c("Girth", "Height", "Volume"),
+ col = c("red", "blue", "green"), lty = 1:1, cex = 0.9)

Выход:

5. Точечный сюжет

Этот инструмент визуализации полезен, если мы хотим сравнить несколько категорий с определенной мерой. Для иллюстрации ниже был использован набор данных mtcars. Функция dotchart () отображает смещение для различных моделей автомобилей, как показано ниже.

Код:

attach(mtcars)
dotchart(disp, labels = row.names(mtcars), cex = 0.75,
+ main = "Displacement for various Car Models", xlab = "Displacement in Cubic Inches")

Выход:

Итак, теперь мы отсортируем набор данных по значениям смещения, а затем построим их по разным передачам, используя функцию dotchart ()

Код:

m <- mtcars(order(mtcars$disp), ) m$gear <- factor(m$gear)
m$color(m$gear == 3) <- "darkgreen"
m$color(m$gear == 4) <- "red"
m$color(m$gear == 5) <- "blue"
dotchart(m$disp, labels = row.names(m), groups = m$gear, color = m$color, cex = 0.75, pch = 20,
+ main = "Displacement for Car Models", xlab = "Displacement in cubic inches")

Выход:

Вывод

Аналитика в истинном смысле опирается только на визуализации. R, как статистический инструмент, предлагает мощные возможности визуализации. Таким образом, многочисленные опции, связанные с диаграммами, делают их особенными. Каждый из графиков имеет свое собственное приложение, и его необходимо изучить, прежде чем применять к проблеме.

Рекомендуемые статьи

Это руководство по графам в R. Здесь мы обсуждаем введение и типы графов в R, такие как гистограмма, диаграмма рассеяния, коробчатая диаграмма и многое другое, а также примеры и реализации. Вы также можете посмотреть следующие статьи, чтобы узнать больше -

  1. Типы данных R
  2. R пакеты
  3. Введение в Matlab
  4. Графики против диаграмм