在探索数据时,如何做到快速又轻松获得漂亮的发表级图表呢?
今天给大家推荐一款基于ggplot2的可视化R包grafify,包中内置多类科研人所需的常见图表和配色方案,代码简单,并且不同图表函数的参数逻辑一致,学会一个基本就能all in 全部图表的绘制方法!
发表级的散点柱形图、箱线图、箱线蜂群图、组合小提琴图、QQ图、密度分布曲线图、直方图、前后配对连线图,今天让你全部一次学会!
#包的安装与载入:
install.packages("grafify")
library(grafify)
一、两个变量探索
探索两个变量,即二维数据(X轴和Y轴),grafify所需的数据格式和ggplot2相同,为长数据格式。下文我们会使用内置的数据集进行学习,方便大家直接调用。
1. 条形图绘制
#条形图可以使用plot_scatterbar_sd和plot_dotbar_sd两个函数(区别在于散点形式不同):
dt <- iris #使用鸢尾数据集作为范例数据
head(dt)
plot_scatterbar_sd(data = dt,
xcol = Species,
ycol = Sepal.Width,
fontsize = 13) + #字号
labs(title = "Scatter dots with bar & SD") + #标题
guides(fill = "none") #去掉图例
#其它常用参数:
#bwid:用于条形宽度
#ewid:误差条宽度
#symsize:符号/散点大小
#b_alpha:条形图不透明度
#s_alpha:符号/散点不透明度
#jitter:散点抖动
#ColPal:调色板选择
颜色当然可以自定义,或者调用别的配色主题包,不过内置的色板配色十分不错,直接用更方便,所有色板参考如下:
#参数修改:
plot_scatterbar_sd(data = dt,
xcol = Species,
ycol = Sepal.Width,
symsize = 3, fontsize = 13,
bwid = 0.6, ewid = 0.4,
b_alpha = 0.5, s_alpha = 0.8,
jitter = 0.2,
ColPal = "light")+
labs(title = "Scatter dots with bar & SD")
#plot_dotbar_sd绘制条形图(散点样式为蜂群图):
plot_dotbar_sd(data = dt,
xcol = Species,
ycol = Sepal.Width,
dotsize = 1.4, fontsize = 13,
bwid = 0.6, ewid = 0.4,
b_alpha = 0.7, d_alpha = 0.9,
ColPal = "light") +
labs(title = "Dot plot with bar & SD")
可以看到两个函数的不同点就在于散点样式,scatterbar为随机抖动,dotbar为整齐排列的蜂群图样式,大家可以按需选择。如果不需要展示散点(仅展示柱子+误差棒),可以通过将散点的不透明度调整为0隐藏。
#dotbar中细微不同的参数:
#dotsize:散点大小
#d_alpha:散点不透明度
2. 箱线图绘制
只要带散点效果的,函数都分为scatter和dot两个,箱线图和小提琴图也一样。
#抖动散点箱线图:
plot_scatterbox(data = dt,
xcol = Species,
ycol = Sepal.Width,
symsize = 3, fontsize = 13,
b_alpha = 0.5, s_alpha = 0.7,
jitter = 0.1,
ColPal = "fishy") +
labs(title = "Scatter & boxplot") +
guides(fill = "none")
#蜂群箱线图:
plot_dotbox(data = dt,
xcol = Species,
ycol = Sepal.Width,
symsize = 3, fontsize = 13,
b_alpha = 0, d_alpha = 0.6, #通过调整不透明度从而隐去颜色
jitter = 0.1,
ColPal = "bright") +
labs(title = "dot & boxplot") +
guides(fill = "none")
3. 小提琴图绘制
#小提琴图+箱线图+蜂群散点图(默认):
plot_dotviolin(data = dt,
xcol = Species,
ycol = Sepal.Width,
trim = T,
symsize = 1, fontsize = 13,
b_alpha = 0,
v_alpha = 0.6,
d_alpha = 0.8,
ColPal = "pale")+
labs(title = "Dots & violin plot",
subtitle = "no trimming (trim = T)")+ #尾巴修剪
guides(fill = "none")
如果我们不想展示散点,将散点的不透明度调整为0:
#不修剪尾巴+隐藏散点:
plot_dotviolin(data = dt,
xcol = Species,
ycol = Sepal.Width,
trim = F,
fontsize = 13,
b_alpha = 0,
v_alpha = 0.6,
d_alpha = 0, #散点的不透明度设为0
ColPal = "pale") +
labs(title = "Dots & violin plot",
subtitle = "default (trim = F)") + #尾巴不修剪
guides(fill = "none")
二、数据分布探索
1. QQ图(分位数-分位数图)绘制
plot_qqline(data = dt,
ycol = Petal.Length,
group = Species,
fontsize = 13) +
labs(title = "QQ plot")
QQ图也是散点图的一种,用于判断数据集是否近似于正态分布。
2. 密度分布曲线图绘制
plot_density(data = dt,
ycol = Petal.Length,
group = Species,
fontsize = 13)
#根据分组进行分面:
plot_density(data = dt,
ycol = Petal.Length,
group = Species,
fontsize = 13) +
facet_wrap("Species")
3. 直方图绘制
plot_histogram(data = dt,
ycol = Sepal.Width,
group = Species,
fontsize = 13)
#根据分组分面:
plot_histogram(data = dt,
ycol = Sepal.Width,
group = Species,
fontsize = 13) +
facet_wrap("Species")
三、实验/处理/干预/治疗前后数据探索
在论文中,特别是医学类期刊如柳叶刀,经常能看见一种有着配对关系的图表,用于展现同一类样本或配对样本在处理/实验/治疗/干预前后的变化,这一类图表我们叫做前后连线图。
下面我们用grafify包中内置的数据集进行前后连线图的学习。
head(data_t_pdiff) #配对数据集,为治疗和未治疗组的小鼠体重,Subject为小鼠ID
plot_befafter_colours(data = data_t_pdiff,
xcol = Condition,
ycol = Mass,
match = Subject, #按照小鼠ID进行匹配
symsize = 3,
fontsize = 13,
ColPal = "light",ColRev = T) +
labs(title = "Two-groups, matched colors")
通过将同一ID的小鼠进行连线,我们能够直观看出治疗前后小鼠体重的变化。
#双向重复测量数据前后连线图绘制:
head(data_2w_Tdeath) #6个独立实验中,在两个时间点测量的两种细菌菌株感染后受感染宿主细胞的死亡百分比
plot_befafter_colours(data = data_2w_Tdeath,
xcol = Time,
ycol = PI,
match = Experiment,
symsize = 3,
fontsize = 13) +
facet_wrap("Genotype") + #按菌种分面
labs(title = "Two-way repeated measures")
对于复杂实验设计的数据,我们也可以轻松用前后连线图进行展示。
#还可以用不同符号展示(plot_befafter_shapes):
plot_befafter_shapes(data = data_2w_Tdeath,
xcol = Time,
ycol = PI,
match = Experiment,
s_alpha= 0.7,
symsize = 2, #符号大小
symthick = 1, #符号粗细
fontsize = 13,
ColPal = "contrast",
ColRev = T)+
facet_wrap("Genotype")+
labs(title = "Matched shapes")
#也可以仅显示单色:
p <- plot_befafter_colours(data = data_t_pdiff,
xcol = Condition,
ycol = Mass,
match = Subject,
SingleColour = "#92a6de",
fontsize = 13)
p1 <- plot_befafter_shapes(data = data_t_pdiff,
xcol = Condition,
ycol = Mass,
match = Subject,
SingleColour = "#f6a1c9",
fontsize = 13)
library(patchwork)
p + p1
除了上述内容,也可以使用该包展示三个及更多的变量,同时也支持多种方差分析!篇幅关系,我们之后再给大家介绍。如果感兴趣的童鞋也可以通过下方【参考资料】处链接进行自主学习。
好啦,今天的分享就到这里!
【参考资料】
https://github.com/ashenoy-cmbi/grafify
https://grafify-vignettes.netlify.app/
转自:基迪奥生物
如有侵权,请联系本站删除!