2022/3/16 14:49:49 阅读:335 发布者:chichi77
如果你的答案是:拼关系,请跳过正文,直接阅读文末卖书的广告。
1981年,科尔兄弟(关于科尔兄弟和详细介绍,请点击)和Gary Simon做了一项同行评议实验,并将实验结果发表在《Science》上[1],实验发现:项目申报,一半靠实力,一半靠运气。
美国自然科学基金委员会(NSF),针对科研项目申报书,采用同行评议的方式择优立项。同行评议过程中,评分分为五档:极好、非常好、好、一般、差。这套程序是不是似曾相识?科尔兄弟对这套程序的公正性与合理性提出了质疑,并因此设计了一项实验。实验第一阶段,他们访谈了75位 NSF 职员,分析了1200份NSF的项目申报书和其中250份申报书的专家评语,主要发现包括:
专家评分与最后的立项结果高度相关(说明 NSF 的确以专家评分为立项依据);
申报人的前期成果与立项结果相关,但相关程度并不高;
来自重点机构的评审专家,比来自非重点机构的评审专家,给来自重点机构的申报书的评分更低;
申报人的学术年龄对专家评分与立项结果的影响不大;
专家评分受申报人以下特征影响:所属院系排名、地理位置、申报前5年是否被资助过、哪里获得博士学位,等等。
以上结论表明 NSF的同行评议系统相对公正(即不存在系统性偏差),但这不是重点,重点是实验的第二阶段,科尔兄弟想搞清楚:NSF 的这套同行评议程序是否合理。那什么叫合理?科尔兄弟将其定义为:将决定因素中的随意性降到最低,将申报书的质量和申报人的能力提到最高。
1977年春季,NSF 给科尔兄弟提供了150份刚评审过的项目申报书,其中,化学动力学、经济学、固体物理学各50份,各学科均有一半申报书立项,一半被拒。接下来,他们要给这些申报书重新找专家来评审。由于科尔一直担任美国科学院科学与公共政策委员会(COSPUP)的咨询专家,这次实验借助了 COSPUP 的力量完成,所以这项实验被称为 COSPUP 实验。
第一步,他们在三个学科各找到10-18位组长,他们大部分是美国科学院院士。
第二步,每项申报书送给两位组长,每个组长给这项申报书找6位评审专家,因此,每项申报书将由12人评审。这时候,有人可能有疑问了:在高度专业化的研究领域,上哪儿找那么多小同行?科尔兄弟这样解释:如果一个领域小到连12个评审专家都难找,那么 COSPUP 实验中找到的评审专家一定会与 NSF 邀请的评审专家高度重合,但事实上,COSPUP实验中找到的评审专家有80%跟 NSF 的评审专家不重合,15%的重合的评审专家是由一位组长选出的,剩下5%的重合是由两位组同时选出的。因此,就实验中的学科领域而言,给每个项目挑选10个评审专家是没有困难的。
第三步,采用相同的评审程序之后,COSPUP实验邀请的评审专家也给这150个项目申报书打出了分数。有人可能好奇:COSPUP 与 NSF 的评审专家打分有多大差别?统计结果显示,COSPUP 组的打分显著低于 NSF 组,但两组打分的结果显著正相关(相关系数0.6左右),也就是说在NSF评审中得了高分(低分)的申报书大概率在 COSPUP 组也得了高分(低分)。到这里就结束了吗?当然不是。既然两组打分的相关系数不是1,那就说明,如果以 COSPUP 打分为立项依据,就有项目会“翻盘”(事实上,项目立项依据是 NSF 的专家评分,原本 NSF 立项的申报书如果以COSPUP 评分为立项依据,可能就变成不立项,不立项也可能变成立项,因此称为翻盘)。有人可能好奇:那到底有多少项目会翻盘,为什么会翻盘?
第四步,科尔兄弟测算了翻盘概率。一个申报书的命运只有立项与不立项两个结果,我们来考虑两个极端,如果 COSPUP 组的专家打分完全跟抛硬币一样随机,也就是说,专家不起任何作用,那么,每个项目翻盘的概率就是50%;如果 COSPUP 组的专家打分跟 NSF 组的专家惊人一致,那么,每个项目翻盘的概率就是0。因此,总体而言,项目翻盘的概率介于0-50%。不能理解?简单地说,如果一个人抛了150次硬币,记录下每次哪一面朝上,另一个人再抛150次硬币,再记录下每次哪一面朝上,这两次记录里有多少是不同的?答案是50%(左右)。有人可能质疑:难道不可能两次结果完全一样吗?有可能,但概率极低(=150个50%相乘)。有意思的是,科尔兄弟发现在三个学科里,翻盘概率大约25%。也就是说,项目评审处于半随机状态(如果完全随机,也就是靠抛硬币来决定哪个项目立项,那么翻盘的概率是50%)。到这里,科尔兄弟的结论就出来了:项目申报,一半靠实力,一半靠运气。
第五步,科尔兄弟详细分析了项目翻盘可能的原因:① COSPUP和NSF两组评审专家所持有的评审标准不同,例如一组人更看重申报书的质量,另一组人更看重申报人的前期成果;② COSPUP 和 NSF 挑评审专家的过程不是随机的;③COSPUP 和 NSF的评审组组长挑选评审专家的时候标准不一样,例如,有组长给熟人的申报书挑选了熟人评审; ④COSPUP 和 NSF 要求组长用相同的标准去找评审专家(排除③),在符合条件的评审专家中做到了随机挑选(排除②),告诉选出来的评审专家用相同的标准去评审(排除①),但不同的评审专家在相同的问题上存在分歧。科尔兄弟通过方差分析,发现最主要的原因是④,也就是说,评审专家们由于自身知识积累不同、偏好不同等原因,会对申报书的质量高低认知不同,因此,申报书送到气味相投的评审专家手上,立项的概率就大了。有人可能好奇:我难道不能靠实力征服所有评审专家吗?答案是:还真不行。科尔兄弟发现在评分更高的一组申报书里,翻盘的概率更高;另外,文献2也发现评审专家们在低质量的申报书上比在高质量的申报书上更容易达到一致意见。也就是说,你仅靠实力是无法征服所有评审专家的,但你要是完全没实力,会让所有评审意见一致地灭了你。
好了,写到这里,大家都发现了,同行评议是有缺陷的。科尔兄弟发现,同行评议使得项目申报书一半的命运交给了运气。那我们能做些什么?放弃同行评议吗?绝对不是!第一,科尔兄弟建议,对于每个申报书,增加评审专家的数量。增加评审专家数量后,能显著减少翻盘的概率。极端情况下,为每一个申报书挑选出所有懂这个申报书的专家来评审,评分结果必然是这个申报书的真实状态了。第二,科尔兄弟建议,多申请。既然有一半的命运交给了运气,那就多申请,好运气总会轮到你。那些杰出的科学家中了更多项目的原因不是因为他们的申报书写的更好,而是因为他们申请的更多。第三,科尔兄弟建议,既然评审专家很难在申报书(只是一个构想)的质量上达成一致,那不如更改评审规则,让评审专家在更容易达到一致的因素上评分,例如,申报人代表作的水平(研究已经完成,更容易评判质量)。最后,科尔兄弟认为,科学界浪费了太多时间和精力在撰写申报书上,如果这些时间和精力用来做研究,科学进步会更快。
最后的最后,祝所有最近提交了项目申报书的研究人员都有好运气!
注:文中出于中文书写方便,只写了科尔兄弟,但实际指代的是《Science》论文的三位作者:科尔兄弟和 Gary A Simon (时为纽约州立大学石溪校区应用数学系副教授)。
[1] Cole, S., Cole, J. R., & Simon, G. A. (1981). Chance and consensus in peer review. Science, 214(4523), 881-886.
[2] 刘欣, 李江, & 吴金闪. (2022). 同行评议一致性研究. 信息资源管理学报, 11(6), 10-16.
转载自:林墨公众号
版权归原作者所有,一切内容以原文为准。仅作为学术分享目的转发,若有任何版权问题或作者不希望被转载请与我们接洽。请联系我们。