Введение в графики в R
График - это инструмент, который существенно влияет на анализ. Графики в Rare важны, поскольку они помогают представить результаты в наиболее интерактивном виде. R, как пакет статистического программирования, предлагает широкие возможности для создания различных графиков.
Некоторые из графиков в R доступны в базовой установке, но другие можно использовать, установив необходимые пакеты. Уникальная особенность графиков в R состоит в том, что они объясняют сложные статистические результаты посредством визуализаций. Так что, по сути, это похоже на шаг над традиционным способом визуализации данных. Таким образом, R предлагает нестандартный подход к анализу.
Типы графиков в R
Разнообразные графики доступны в R, и использование зависит исключительно от контекста. Тем не менее, исследовательский анализ требует использования определенных графиков в R, которые должны использоваться для анализа данных. Теперь мы рассмотрим некоторые из таких важных графов в R.
Для демонстрации различных диаграмм мы будем использовать набор данных «дерева», доступный в базовой установке. Более подробную информацию о наборе данных можно найти с помощью? деревья командуют в Р.
1. Гистограмма
Гистограмма - это графический инструмент, работающий с одной переменной. Многочисленные значения переменных сгруппированы в ячейки, и рассчитывается ряд значений, называемых частотой. Этот расчет затем используется для построения частотных баров в соответствующих бобах. Высота стержня представлена частотой.
В R мы можем использовать функцию hist (), как показано ниже, для генерации гистограммы. Простая гистограмма высоты деревьев показана ниже.
Код:
hist(trees$Height, breaks = 10, col = "orange", main = "Histogram of Tree heights", xlab = "Height Bin")
Выход:
Чтобы понять тенденцию частоты, мы можем добавить график плотности над гистограммой выше. Это позволяет лучше понять распределение данных, асимметрию, эксцесс и т. Д. Следующий код делает это, и выходные данные отображаются после кода.
Код:
hist(trees$Height, breaks = 10, col = "orange",
+ main = "Histogram of Tree heights with Kernal Denisty plot",
+ xlab = "Height Bin", prob = TRUE)
Выход:
2. Scatterplot
Этот график представляет собой простой тип диаграммы, но очень важный, имеющий огромное значение. Диаграмма дает представление о корреляции между переменными и является удобным инструментом в исследовательском анализе.
Следующий код генерирует простую диаграмму Scatterplot. Мы добавили к нему линию тренда, чтобы понять тренд, который представляют данные.
Код:
attach(trees)
plot(Girth, Height, main = "Scatterplot of Girth vs Height", xlab = "Tree Girth", ylab = "Tree Height")
abline(lm(Height ~ Girth), col = "blue", lwd = 2)
Выход:
Диаграмма, созданная с помощью следующего кода, показывает, что существует хорошая корреляция между обхватом дерева и объемом дерева.
Код:
plot(Girth, Volume, main = "Scatterplot of Girth vs Volume", xlab = "Tree Girth", ylab = "Tree Volume")
abline(lm(Volume ~ Girth), col = "blue", lwd = 2)
Выход:
Матрицы рассеяния
R позволяет нам сравнивать несколько переменных одновременно, потому что он использует матрицы рассеяния. Реализация визуализации довольно проста и может быть достигнута с помощью функции pair (), как показано ниже.
Код:
pairs(trees, main = "Scatterplot matrix for trees dataset")
Выход:
Scatterplot3d
Они делают возможной визуализацию в трех измерениях, которые могут помочь понять взаимосвязь между несколькими переменными. Таким образом, чтобы сделать scatterplots доступными в 3d, сначала нужно установить пакет scatterplot3d. Итак, следующий код генерирует трехмерный график, как показано ниже кода.
Код:
library(scatterplot3d)
attach(trees)
scatterplot3d(Girth, Height, Volume, main = "3D Scatterplot of trees dataset")
Выход:
Мы можем добавить выпадающие линии и цвета, используя код ниже. Теперь мы можем удобно различать разные переменные.
Код:
scatterplot3d(Girth, Height, Volume, pch = 20, highlight.3d = TRUE,
+ type = "h", main = "3D Scatterplot of trees dataset")
Выход:
3. Boxplot
Boxplot - это способ визуализации данных через ящики и усы. Сначала значения переменных сортируются в порядке возрастания, а затем данные делятся на кварталы.
Рамка на графике представляет собой средние 50% данных, известных как IQR. Черная линия на коробке обозначает медиану.
Код:
boxplot(trees, col = c("yellow", "red", "cyan"), main = "Boxplot for trees dataset")
Выход:
Вариант коробочного участка с выемками показан ниже.
Код:
boxplot(trees, col = "orange", notch = TRUE, main = "Boxplot for trees dataset")
Выход:
4. Линейная диаграмма
Линейные диаграммы полезны при сравнении нескольких переменных. Они помогают нам отношения между несколькими переменными в одном графике. На следующем рисунке мы попытаемся понять тенденцию трех древовидных элементов. Итак, как показано в приведенном ниже коде, изначально и линейный график для обхвата строится с использованием функции plot (). Затем линейные графики для высоты и объема строятся на одном графике с помощью функции lines ().
Параметр «ylim» в функции plot () предназначен для правильного размещения всех трех линейных диаграмм. Здесь важно иметь легенду, поскольку она помогает понять, какая строка представляет какую переменную. В легенде параметр «lty = 1: 1» означает, что у нас одинаковый тип линии для всех переменных, а «cex» представляет размер точек.
Код:
plot(Girth, type = "o", col = "red", ylab = "", ylim = c(0, 110),
+ main = "Comparison amongst Girth, Height, and Volume of trees")
lines(Height, type = "o", col = "blue")
lines(Volume, type = "o", col = "green")
legend(1, 110, legend = c("Girth", "Height", "Volume"),
+ col = c("red", "blue", "green"), lty = 1:1, cex = 0.9)
Выход:
5. Точечный сюжет
Этот инструмент визуализации полезен, если мы хотим сравнить несколько категорий с определенной мерой. Для иллюстрации ниже был использован набор данных mtcars. Функция dotchart () отображает смещение для различных моделей автомобилей, как показано ниже.
Код:
attach(mtcars)
dotchart(disp, labels = row.names(mtcars), cex = 0.75,
+ main = "Displacement for various Car Models", xlab = "Displacement in Cubic Inches")
Выход:
Итак, теперь мы отсортируем набор данных по значениям смещения, а затем построим их по разным передачам, используя функцию dotchart ()
Код:
m <- mtcars(order(mtcars$disp), ) m$gear <- factor(m$gear)
m$color(m$gear == 3) <- "darkgreen"
m$color(m$gear == 4) <- "red"
m$color(m$gear == 5) <- "blue"
dotchart(m$disp, labels = row.names(m), groups = m$gear, color = m$color, cex = 0.75, pch = 20,
+ main = "Displacement for Car Models", xlab = "Displacement in cubic inches")
Выход:
Вывод
Аналитика в истинном смысле опирается только на визуализации. R, как статистический инструмент, предлагает мощные возможности визуализации. Таким образом, многочисленные опции, связанные с диаграммами, делают их особенными. Каждый из графиков имеет свое собственное приложение, и его необходимо изучить, прежде чем применять к проблеме.
Рекомендуемые статьи
Это руководство по графам в R. Здесь мы обсуждаем введение и типы графов в R, такие как гистограмма, диаграмма рассеяния, коробчатая диаграмма и многое другое, а также примеры и реализации. Вы также можете посмотреть следующие статьи, чтобы узнать больше -
- Типы данных R
- R пакеты
- Введение в Matlab
- Графики против диаграмм