投稿问答最小化  关闭

如何让数据在论文中更“漂亮”

2022/3/14 16:51:11  阅读:489 发布者:chichi77

我们一直追求用最亲民的价格提供最专业的论文润色翻译服务,想要润色翻译,找我们就对了。

从科学家们开始给期刊投稿到现在,很多事情都在慢慢变化。比如,大多数文章的作者数量比几十年前的文章要多,而且文章也普遍更长了,但是对数据和结果的可视化需求一直都很高,现在很多期刊已经鼓励作者上传图形摘要和视频摘要,也能说明这个问题。

对科技论文来说数据就是灵魂,整篇论文往往都是为了解释数据的合理性而存在。但现实情况往往是你对着未经处理过的数据看的时间越长,就越不理解这个数据包含的信息。所有的科学家都希望可以有效地表达自己的观点,为了实现这个目标,数据视觉化(Data Visualization)是科学家们目前找到的最好办法,它能够最大程度地确保信息正确且完整地被传递出去。

但是,理想和现实之间往往有巨大的鸿沟。一份早期针对《Science》期刊中377张图表的调查显示, 30%的至少有1个非常重大的解释错误。对数据进行可视化的时候,我们需要考虑到信息和表达是否匹配。糟糕的数据可视化会阻碍读者对信息的理解,而这往往是作者主观因素导致的。

所以,如何做好数据可视化工作,让数据在论文中更“漂亮”呢?这是我们今天这篇文章的核心内容。

想用图形表达信息,实际上有很多方法,只是有的方法效果并不明显。很多人不知道的是,这其实和我们的感知能力密切相关,一个优秀的数据可视化图形需要充分发挥人类的感知能力。

5个设计原则

在数据可视化中,我们用几何图形而不是数据来表达信息,传递的有效性受制于人的短期记忆能力。有研究可以证明,正常人的视觉短期记忆只能保留3~5个物体,而且这个数据很难增加,这就要求我们必须设计不需要读者一次掌握太多细节的图形。在中额外增加很多对象、图例和定义,会让读者阅读的时候很费力。改进图形设计和集中注释可以减少对短期记忆的要求,增加读者对的理解。

我们在写作的时候会认真选择每个单词,考虑怎么将它和整段文字融合起来。数据可视化也是同样的道理,我们要认真考虑每个视觉元素该怎么和正文融合起来。考虑到这个道理,我认为有5个原则可以帮助你更有效地让数据视觉化。

原则1 确定目标

没有目标的可视化就像是没有目的地的旅行,你也许能看到很多美丽的风景,但是你不知道什么时候能到终点。你可以通过提问的形式明确目标。比如:

连续变量Y的分布是什么?

变量需要转换么?

是否出现了特殊的数据?

这样提问的好处是,我们可以确定应该优先选择什么形式的对数据进行可视化,我在下图中列举了一些常见的数据可视化形式,你可以参考一下。

1

清晰的目标可以帮助你确定想要在可视化中传达的信息以及相关元素。

原则2 让数据主导

论文中的图表通常包括两个部分:数据和注释。你要做的是确保数据始终发挥主导作用,注释发挥辅助作用。如果你不理解的话,可以看图2(B)

整张图中数据点是最突出的,其次是通过局部回归得到的平滑曲线,最后是网格和标签。只有数据是主要细节,其他所有内容都是次要细节,我们可以通过调整对象的大小、线条粗细、颜色、饱和度等突出次要细节。如果你还是不太理解,我教你一个方法, 从远处眯着眼睛看图形,数据应该是最显著的特征,注释应该淡入背景。

2

原则3 简化

数据视觉化的结果就是图形中的所有元素都想吸引读者注意,我们要做的就是,在不影响数据完整性的情况下用尽可能少的元素表达信息。统计学家Edward Tufte教给我们两条非常适实用的方法:

图形中的大部分元素应该用来描述数据。

无法表达重要信息的元素应该删除。

简单来说就是,在优化图形的时候,要删除无关元素,保留并维护最基础部分。

原则4 一致性比创造性更重要

这个原则可能会让很多人感到不理解,创造性不应该是最重要的么?实际上,对于数据视觉化来说,首要的目标就是让读者理解作者表达的内容,减少读者理解的难度。好的设计应该要使用一致的元素、布局和颜色来实现视觉连续性。新颖的设计确实有自己的位置,但是熟悉的设计往往能够减少读者理解的难度。比如,图1中每个小图的设计都不同,但是视觉样式、字体系列和字体层次在小图中保持了一致性,这就能够让读者理解起来更轻松一些。

原则5 格式塔原则

格式塔原则原本是个心理学概念,但是数据视觉化设计和人的心理密不可分,因此只要谈到数据视觉化设计就一定会谈到格式塔原则。这是一门很深刻的学问,我并不打算在这篇文章中详细阐述,你只需要知道它能够帮助我们理解部分与整体之间的相互作用。格式塔原则本身包括很多细分原则,我们主要关注其中的临近原则和相似原则,这两个原则都是描述人类如何倾向将视觉元素组织在一起的。

临近原则告诉我们距离较近的对象往往被认为是同一组的一部分,比如说你会自然地将*** ***当成两组元素而把 ** ** ** 当成三组元素。知道了这个原则,我们在设计时就可以通过对齐和留空白表达层次关系,比如图2(A)和图2(B)中间有一个微妙的空白行,表达的意思就是图2(A)和图2(B)应该要分开理解,但是图2(A)和图2(B)内各自的小图需要放在一起分析。

3

相似性原则说的是我们往往会把具有相似视觉属性的对象认为是同一组的一部分,比如形状、颜色、大小和方向等。就像图4中的散点图,我们很容易就可以根据元素符号区分出每个小图中的两组数据。

4

选择图表类型

要想让数据可视化,就必须要选择合适的图表,这是基础而且困难的工作。我们必须要确定数据特征,比如数据样本数量(即观察次数)、数据维度(即变量的数量)、数据之间是否独立、每个变量的数据类型。由于不同图表的特点不同,一旦确定了数据特征,我们就可以选择对应图表。接下来,我会从4个角度给大家介绍一下具体应该如何选择图表。

1. 常见的图表类型

我在图1中为大家列举了常见的12种图表类型,我强烈建议你花点时间研究一下这张图。从图中我们就能分析出很多有意义的结论。比如说,对于一些低维数据而言,通常的做法是沿着坐标轴的位置绘制数据点。但是对于多维数据来说,这种做法就不合适了,像马赛克图或者是热力学图可能是比较好的选择。

我们在图1中列举了很多图表类型,而且我们还可以创造性地使用点、线和形状等方式来表达数据。统计学家和计算机科学家利兰·威尔金森(Leland Wilkinson)写过一本非常知名的书《The Grammar of Graphics》,他在书中将图形概念分解成不同的部分,比如数据、尺度、坐标、几何和美学等。这个概念已经深入到市面上很多软件中,包括非常有名的gnuplotggplot2R。如果你对这本书感兴趣的话,可以在后台回复The Grammar of Graphics,我为你准备了这本书的电子版本,可以直接下载阅读,这是一本非常值得一读的书。

在选择几何图形的时候,我们还需要考虑清晰度。比如,当我们想描述双变量分布时,散点图(图1(E),顶部)可能是首选。但是,如果现在数据非常多,有成百上千个,点的密度可能会让数据的描述失真,面对这种情况,二维直方图或者二维核密度估计图(图1(E),底部)可能更合适一些。

2. 显示变化和不确定性

相比数据可视化的其他内容,这部分内容可能稍微有一点难,但是我认为非常重要。首先,我们需要建立一个认知,如果没有不确定性的描述,就无法对准确的视觉进行比较,从而可能会让读者得到错误的结论。

变化和不确定性可以用很多几何图形描述,其中最常见的就是误差线(error bars,又叫误差棒,误差条等)。误差线的种类和标准都不一样,但是如果你学过概率论,一定知道几种误差线,比如样本标准差(standard deviation, SD)、均值标准误差(standard error of the mean, SEM)、置信区间(confidence interval, CI)、贝叶斯概率区间(Bayesian probability interval)和预测区间(prediction interval)等。所有的误差线都有自己的解释,如果使用错误,一定会误导读者。

如何在数据可视化过程中使用这些误差线呢?这需要分情况讨论,下面,我抛砖引玉给大家介绍两个。

如果你想估计总体参数,比如说均值或者方差,你就需要知道统计数据的抽样分布,这时候合适的误差线可以是均值标准误差(SEM)和95%的置信区间(CI),那么你可以选择强调比较的图形,比如图1C和图1D。很多人喜欢使用95%的置信区间,我认为你可能需要格外注意,不要错误使用,目前国内外对P值的使用有很大争议,不过这并不是本文的重点,也许有机会我会给大家详细解释这个问题。

如果你想观察结果,那么你可能需要经验分布函数(empirical distribution function),在这种情况下,误差线表示的是中位数附近的平均值或者四分位数(interquartile range, IQR)的标准差。此时的误差线反映了数据变化,可以用直方图或者小提琴图来表示,比如图1(A)

目前,对于不确定性的可视化研究依然是热点话题,尤其是针对多维数据的紧凑可视化,我期待今天的文章能够给你一些启发,让你能够为数据可视化研究出一份力。

3. 多元可视化

我建议大家一定要多看图1。接下来,我就借助图1(J)、图1(L)和图1(K)详细阐述一下多元数据可视化的内容。

1J-1L

首先是图1(J),很明显能够看出来它非常像一个3×3的图形矩阵,实际上它描述的就是排列成矩阵的所有变量对(pairs of variables)之间的双变量关系。这本来是描述连续变量的,现在已经被推广到分类变量(categorical variables)了。你可能不清楚什么是分类变量,但是考虑到篇幅,我没有办法在这里给你详细介绍,我相信我们的读者都有很强的自学思想,这难不倒你们。

在图1(J)中出现了3个变量(XYZ),按照散点图矩阵形式绘图的话,会有9种关系图,但是考虑到有一些关系实际上有一些重复,比如(X, Y)与(Y, X)是同一组数据的不同表达,所以可以考虑在矩阵的上三角或者下三角区域绘图。不过,如果你非要强调(X, Y)与(Y, X)关系的差异性,也可以把图全部绘制出来,图1(J)中就有很多例子。

不过,图1(J)有一个很明显的限制,只有当你处理变量对时才可以用这种形式的图,不是变量对的数据,我们需要另外想办法,图1(K)就提供了一个很不错的解决思路。图1(K)是平行坐标图,图中的等距平行线可以用来表达数据维度,图中总共有5个维度(变量VWXYZ)。不同变量之间的关系可以用穿过平行坐标的线来表示,所有线最后会形成“束”,这时如果有异常数据的话就会非常明显。你也可以用径向射线表示5个维度的坐标,最后的可视化结果就是雷达图或者星云图。

10维数据内,图1(J)和图1(K)确实有不错的视觉效果,但如果数据维数再多一点,比如说针对10-20维数据(例如数百个时间点或数千个像素点),图1(J)和图1(K)的效果可能就不尽如人意了,这时候图1(L)就派上用场了。当我们想把这么多数据都可视化时,很明显不可能直接给出原始数据,甚至连集中的变量数量都没有办法显示,我们更关注数据的相似性或者差异性。

在图1(L)中,我们主要观察的是5个集合的数据集,每个集合中包含大量变量的数值。我们可以计算相似矩阵(similarity matrix)或者距离矩阵(distance matrix),然后将结果显示为热力学图,从而观察集合之间的关系。图1(L)看起来很高端,很有用,但是稍微有一点复杂,如果有读者很感兴趣但不是特别明白,可以在文章下面留言,我看到了会尽量回复。

目前,多元可视化并不是主流,我认为它们在数据探索和呈现方面都没有被充分利用,比如说对多元数集的可视化现在经常被描绘成一系列单变量的可视化,这个往往就掩盖了其中很多深层的规律。尽管这样,我依然相信它一定会成为一个研究热点,前途一片光明。

符号和颜色

符号和颜色在数据可视化中极其重要,接下来我就给大家讲讲在绘图的时候如何正确使用符号和颜色。

1. 使用符号

当我们绘制数据图的时候,有效的符号能够最大限度提供直观的视觉对比。

如果你想绘制单一类别的数据图,我建议你使用没有空心圆作为绘图符号。圆形的独特之处在于不同圆在相交的时候不会形成另外一个圆,但是三角形、正方形、十字形等形状就不是这样,它们在相交的时候会形成跟自己本身很相似的形状,这会给读者的阅读造成困扰。

空心圆也有一个不好的地方就是,你的注意力容易被吸引到空心圆外,从而让你误判长度和位置。这时候你可以利用一些小符号减少这种干扰,或者在重叠较少和没有重叠的情况下用实心圆,比如下图5

5

如果你想绘制多数据类别的数据图,我建议你使用对比度高且易于区分的绘图符号。比如,如图4(A)所示,由于空心圆和空心正方形(或者其他空心多边形)的对比度比较差,所以读者必须要主动用眼睛寻找不同形状才能区别不同类型的数据。如果我们改变形状(正方形、十字形和实心圆等),就可以提高图形的识别度,如图4(B)-4(F)所示。

此外,如果可以的话我更建议你通过改变颜色增加图形识别度,效果会更好,关于这一点我接下来会介绍。

值得注意的是,如果你要区分的数据类型特别多,数据密度过大或者数据之间有重叠,这样不论使用什么符号都没用,我建议将相关类别的数据单独用一张小图呈现出来。

2. 使用颜色

人类的三原色视觉系统可以让大多数人分辨出海量颜色,创造出丰富的视觉感官体验,将颜色融入数据可视化中可以增加表现力和影响力。

但是,颜色的使用也有缺陷,比如说人类的颜色感知取决于与相邻颜色的对比,如果搭配不当,会让读者产生错觉。而且,我们知道人群中很大一部分人有色盲或者色弱的视觉障碍,这会让他们对某些特定的颜色识别产生偏差。

最后,我们还必须要考虑到颜色在数字媒体和印刷媒体中的表现形式。很多人有过这样的经验,明明在电脑上看起来很艳丽的,彩打之后却没有那么艳丽了,这就是颜色在数字媒体和印刷媒体中的不同表现。

因此,如果我们决定使用颜色,那就要确保好处大于成本。下面我们先用图6解释说明一下颜色使用过程中的问题。

6

6(A)使用颜色对分类变量进行了区分,我们可以称之为定性颜色编码(Qualitative Color Encoding)。从图中可以看出,即使我们努力通过形状和灰度区分数据,但是对比度依然远远比不上颜色和形状的效果。

6(B)将颜色应用于连续变量,我们可以称之为定量颜色映射(Quantitative Color Mapping)。从图中可以看出来,仅使用灰度和正负值是不平衡的,因为我们的注意力轻易就被吸引到较暗的区域了。如果我们用颜色对整个区域进行编码,整个视觉就会恢复平衡了,因为负值和正值都用相同饱和度的颜色进行了区分,我们的注意力就不会被轻易地吸引到某个区域。而且图中使用了红蓝编码,也不会造成红绿色盲和色弱的识别障碍。

3. 定性颜色编码

艺术家Albert Munsell提出,有效的定性颜色编码必须要选择易于区分的颜色。

目前据我所知就已经有很多理论专门教你如何如何区分这些颜色,比如Munsell提出可以通过过沿着感知均匀的色彩空间选择等间距的点来确定,并把这个称作“谐波”调色板("harmonic" palette),利用这种方法产生的颜色具有不同的色调,饱和度和亮度都比较高,不会让读者的注意力产生偏差。我给大家提供一个网页:colorbrewer2.org,如果你感兴趣的话可以直接在这个网页中选择颜色。我平时画图就会参考这个网页。

还有其他一些方法,比如Wong提出的在改变亮度的同时旋转色调饱和度来选择颜色,这样生成的颜色即使在灰度复制中也可以被识别出来,这个方法我一直没有用过,你可以参考相关文献自学。

和前面说的一样,如果你要区分的数据类型特别多,数据密度过大或者数据之间有重叠,这样不论使用什么颜色都很难被区分,此时我建议将不同类型的数据单独用一张小图呈现出来。

4. 定量颜色映射

所谓的定量颜色映射,说得简单点就是用颜色的连续变化描述数据的连续变化。这是个非常复杂的理论,如果要讲清楚的话,这篇文章大概需要再额外多出5000字才行,这样就不利于大家阅读了,所以我打算用一张图来简单解释一下。

7

这张图中左边的圆柱体实际上是“色调(hue)-饱和度(saturation)-颜色亮度(value)”坐标系,图中右侧区域对应的是圆柱体不同边缘的颜色,比如路径1实际上对应的是顶面边缘的颜色渐变路径,能看出来这是通过纯色表示循环进展。有哪些数据有这种特征呢?比如相位角变化,一天当中的时间变化,这些都满足循环的特征。

再比如说路径2很明显是左边圆柱体的垂直截面边缘,其中B点是白色,所以这比较适合描述那些偏离原点的数据。

颜色映射的选择必须考虑数据的性质以及如何与感知期望保持一致。如果数据中包括不连续或者突变点,那我们也必须要构建不连续的颜色图。

我用最简单的语言将定量颜色映射的核心内容概括了,我相信足以应付绝大多数人的数据视觉化工作了。考虑我们这篇文章的篇幅已经比较长了,关于定量颜色映射更详尽的内容,我建议大家还是去自学,相信我们的读者有这个能力。

其他内容

写到这里,我们这篇文章已经快结束了,但是关于数据视觉化的分析并没有结束。比如,我们还没有介绍坐标轴和绘图软件。我之所以没有介绍,一方面是考虑到本文篇幅,另一方面是因为这篇文章主要介绍的是设计理念,并不是设计工具。工具很重要,但只有在思想上的指导下才能发挥价值。也许你把它当成一个课后作业去独立学习效果会更好。

所有科学家都希望尽可能地分享他们的信息,更好地理解图形设计无疑是其中关键的一步。绘制出有效的数据图无疑是论文作者的主要责任,专家在审稿的时候也会更看重那些有效的数据图,对无效的数据图提出修改意见。

关于如何在论文中让数据更好的视觉化还没有严格的标准,希望我这篇文章能够给所有读者提供一些比较不错的建议。

恭喜你又读完了一篇很有价值的文章,从而变得更强了。

如有侵权,请联系本站删除!

  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com