以下文章来源于复旦智能评价与治理 ,作者FD智能评价与治理
783期 | 2023.06.30
为探索科学落地的学术评价体系,推动新时代学术评价的改革和实践,复旦大学国家智能评价与治理实验基地与复旦新学术共同开设“新评价”栏目,以“知评价”“谈评价”“践评价”等话题聚焦、共议当代学者共同关心的学术学科评价的理论、方法与实践问题,为新时代中国哲学社会科学的良性发展与繁荣、建构中国自主的知识体系贡献绵薄之力。
1.引言
同行评议是评估大学学术研究的最重要方式,评议结果为项目考核与资助决策提供着支撑。虽然已有许多研究探讨了同行评议中存在的潜在偏见和主观性,但人们对什么是研究质量以及同行专家应如何识别研究质量知之甚少,对这些问题进行研究将有助于改进同行评议实践。虽然可靠的同行评议过程与同行选择、技术支持、组织方式(单盲、双盲、小组决定等)等许多方面相关,但本文将重点讨论如何在同行评议中识别研究质量:一是阐述人文社会科学(SSH)中“质量”的概念,这是同行评议的重要标准;二是分析同行评议这一研究评价方法的相关问题;最后进行总结并就评价标准和方法对同行评议过程提出建议。
2.什么是质量?
在Lamont所著的How professors think一书中描述了专家如何扮演守门人(或是“科学守护者”)角色。书中的一位受访者引用了同行评议专家最常对一项工作或职业作出的评价:“虽然卓越的表现形式多种多样,但我相信我看一眼就能作出精准的判断”。尽管专家们每天都在评判着他们同事和学生的工作质量,但质量的概念仍然是模糊的,专家也无法准确地说出他们是如何判断一项研究或一项事业的。尽管有大量文献对高等教育质量概念或研究资助程序中的研究质量进行了研究,但只有少数研究从学者自己的角度系统调查了“好”研究的特征,学者自身才是最能判断出什么是“好”研究的人,SSH尤其如此。
Michele Lamont:How Professors Think,
Harvard University Press,2009
对欧洲SSH学者的相关研究表明,人们对研究质量的关注度越来越高,但鲜有研究以自下而上的方式调查研究人员如何理解和识别SSH研究的质量。当以同行评议的方式对研究质量做出判断时,应该深入理解质量的含义,而不是使用像合理性、学术价值和原创性这样的通用术语,或是英国RAE2008中几乎共用的标准,如严谨性、重要性和原创性,这些标准在实践中被证明是非常不精确的。关于学者视角下质量概念的研究表明,研究质量是一个复杂、多维的结构,如果将研究质量简化为某些方面就可能会产生不利影响,如目标错位或任务不足。尽管同行评议通常基于政策目标,但它仍然有其特定的标准,专家们会尽可能预测评估时需要遵从的标准,并相应地调整他们的行为。此外,即使使用正式指标来规范同行评议过程或使其评判过程更加客观,评议专家在评估中也可以选择性地使用这些指标以支持他们所作出的决定,而不一定完全遵循标准。
经常被用于评价的标准并不能代表科学质量的标准,而是更像是一种研究方式的标准,正如对质量概念的相关研究所表明的那样:跨学科性、研究合作、国际性和社会影响力等,它们不应被视为科学质量的标志,而是代表着一种现代研究方式的特征,既可能是高质量的,也可能是低质量的。因此,对两种评价标准做好区分十分重要:一种是研究资助机构和研究政策制定者所应用的与战略决策相关的标准,另一种是反映科学质量的标准。然而,这两种类型的标准通常被一起用作质量的标准,在同行评议过程中也是如此。评价者和学者之间对不同质量概念的不同评价标准的混淆可能会导致沟通问题,从而引起对评价程序的反感,以及产生同行评议中的偏见,例如如果通过同行评议评估跨学科研究,那么在评议中专家们会倾向于使用他们的学科标准来判断研究。因此应就不同类型的标准进行单独评估,以使标准更加透明。
社会影响力是一个特殊情况,因为它与研究质量没有直接关系,而是与研究的另一个目标有关,即研究对学术界以外产生的影响力,因此应对其单独评估。社会影响力评估中的同行评议具有不同的质量标准,评议专家或同行的身份也可能十分多样。但关于同行应如何评估社会影响力,甚至如何定义社会影响力的研究并不多。相反,学者们似乎更倾向于评估研究质量而非社会影响力,当他们需要评估社会影响力时,他们对其内涵的把握更加缺乏自信。
3.通过同行评议评估研究
如果研究质量是一个复杂、多维的结构,那么如何在实践中对其进行评估?过去几年来,有几项行动调查了如何充分评估SSH研究的质量,或SSH中的研究绩效。研究结果通常建议将SSH学者列为同行专家参与同行评议或制定产出清单(如出版物清单或出版商清单)。同行的参与对于评估过程至关重要,因为仅有约50%的人文学科研究可以用指标来充分衡量其质量,社会科学可能也存在类似情况。但是,如果涉及同行评议,最重要的是要确保评议过程公平公正,即使用相同规则对待所有被评估单位。
同行评议作为常用评价方法之一饱受批评,一些学者对同行评议中的偏见进行了研究,如较低的一致性、一般的预测效度,以及会涉及除了质量之外的其他因素(申请人的性别或机构等)。但这些对同行评议过程的批评涉及到方法论问题——所有的评议过程都是在没有明确概念的情况下进行比较和得出结果的:首先,评议者间的高度一致性结果是否可靠并不清楚,因为这可能是在专家选择时选择了遵循相同范式的专家,他们可能不接受来自其他范式的研究。如果没有明确评议者是如何给出不同评分的,就不能保证评审过程的质量。其次,较好的预测效度通常体现在衡量已发表文章与被拒绝但在其他地方出版的文章之间的引用差异,或比较获得一定资助的学者与未获得资助的学者之间的引用影响差异,但这可能仅仅是因为文章发表在特定期刊上或者因为获得了知名资助机构的支持而产生的结果,引用作为一项结果指标与许多因素相关并且依赖于一些其他因素,在大多数情况下并不是同行评议的有效衡量标准,特别是在SSH领域。最后,同行评议中存在的偏见可能并不是同行评议本身的问题,而是评议外部的环境问题,例如知名机构的研究人员可能会有更多时间撰写提案,女性研究人员可能会缺乏自信并提交保守的提案,以及在知名机构中男性更为常见,这些都会导致对女性的偏见。
对于同行评议过程的质量来说,更重要的是内部信度——即同一评议者在不同时间点对同一工作给出相同分数的可能性,例如评议者的评分与评议者阅读不同提案的顺序无关。Thorngate等在其关于决策的综合研究中得出结论,应根据特定的标准分别评判优劣以得到趋于一致的结果。所谓的“整体性”判断(即完全依靠个人感觉)容易对不同的申请人使用不同的权重,这会产生双重标准和主观偏见。此外,提高标准的全面性有助于避免倾向于相似点而忽视差异性,虽然人们倾向于寻找“一致性”,但基于单方面冗余信息的评估总是不如基于更多方面信息的评估,正如Tversky等所指出的:“当输入变量高度冗余或高度相关时,最容易观察到高度一致的模式。因此,人们往往对基于冗余输入变量的预测十分有信心。”例如,如果一个评议者发现一篇文章写得很好,提出了有趣的发现,但对方法的严谨性有所怀疑,那么“写得好”和“有趣的发现”这两个方面的评价很可能将主导其最终的整体判断,“方法问题”可能会被忽略。信息量充足的组合应该是“写得好”但“方法上不严谨”。如果每个标准都被单独评判,“方法问题”就不会被忽视,因为标准列表会起到提示作用。此外,明确的标准有助于增加透明度,即明确哪些标准会被用于判断,以及它们是如何加权的,这会帮助作者或申请者作出改进。
以上这些要点对于保证价值判断的公平性和一致性都十分重要,所有的申请书、稿件或其他评估对象都应按照相同的标准进行评估,这有利于减少保守偏见、性别偏见或机构偏见等不同形式的偏见。通过提供一个关于研究质量判断的超越同行的一致性框架,还有助于预防一些技术问题,如评议者间一致性较低或预测有效性较低的情况。覆盖多个标准的评分有助于消除对单一标准的不同判断,以及对不同标准的加权差异。它还表明,通过引用来衡量研究可能不是同行评议程序中的最佳质量标准,因为引用与许多其他非质量因素有关,例如热门主题或机构规模。
4.结论
在SSH领域,同行评议是评估成果、工作、项目或机构的最常见和最重要方法。本文侧重于如何在同行评议中正确认识学术质量,这是学术同行评议的核心目标之一。尽管同行评议是一种被普遍接受的评价方法,但它也存在一些不足,如评议者之间的一致性较低、预测的有效性一般以及存在不同类型的偏见(保守偏见、性别偏见、机构偏见等)。本文认为,这些不足与没有明确将研究质量的概念与同行评议程序有效关联相关。研究表明研究质量是一个复杂、多维的结构,这种复杂性在实践中却很少被考虑到。同时,关于决策的研究表明,为了实现一致和公平的结果,应按照特定的标准进行单独评判,而非“整体”评判。因此,同行评议应包含一系列明确的标准来辅助评议专家作出判断,应对每个标准分别进行评分,从而更合理地使用指标,以及为评议者提供额外的判断信息,增加被评议者对指标使用的接受度,并减少评议过程中的主观性。此外,对于研究质量的标准和政策目标的标准(如跨学科研究和社会影响力)应分别进行评估。
(本文选自ENRESSH报告Overview of Peer Review Practices in the SSH,原文链接:https://enressh.eu/links_and_literature/enressh-publications/,本期推文为节选摘编,略有删减和编辑)
转自:“复旦新学术”微信公众号
如有侵权,请联系本站删除!