投稿问答最小化  关闭

万维书刊APP下载

慢工出细活,欲速则不达:结构生物学领域的证据

2022/5/16 9:32:37  阅读:271 发布者:

原文信息:

 

Ryan Hill and Carolyn Stein, Race to the Bottom: Competition and Quality in Science, Working Paper.

 

https://carolynstein.github.io/files/comp_qual.pdf

 

写在前面

 

基础科学研究的成果通常无法直接在市场上变现,直接激励科学家孜孜不倦的劳动的并非是金钱,而是由原创性贡献赚取的声誉(credit),学术江湖里特有的财富形式。科学家通过抢先发布新的发现来获得声誉,因此,「争做第一」便成为萦绕于基础科研中的残酷主旋律(一个经典的案例是牛顿和莱布尼兹对「谁先发明微积分」的争议)。

 

这种竞争对科学和社会而言可能是利弊参半的。首先,争先的压力能够促使科学家更快地产出知识;其次,为了获得声誉,科学家也会及时将成果公之于众。然而,竞争也有黑暗的一面。俗话说「欲速则不达」,科学家也可能会为了抢先发表成果而不择手段地加快速度,代价就会是质量低下的科研产出。他们赢得了声誉,却也留下了烂摊子,以至于后人不得不再次投入一系列成本来重复研究。本文介绍的研究就利用结构生物学领域的数据验证了竞争之弊的存在:越重要的研究,竞争越激烈,成果质量也越低。

 

这项研究巧妙地选取了结构生物学作为研究对象,因为这个大领域的特性解决了自变量和因变量的度量问题:科研产出质量有可量化的客观指标(结构解析的精准度),且竞争行为容易衡量(蛋白质氨基酸序列的相似度和公开的项目时间线可用于判定项目之间的竞争关系)。论文作者之一 Carolyn Stein 2021 年毕业于 MIT 经济系,凭借这篇优秀的求职论文在 UC Berkeley 经济系和商学院找到了助理教授的工作。Carolyn 在经济学新秀中国行系列 seminar 中宣讲了这篇论文,本推文写作亦得益于参加 seminar 的各位教师和学生的贡献。

 

01背景、模型和数据

 

结构生物学是现代科学中的一个重要领域,为遗传疾病和药物开发有关的研究提供基础知识。结构生物学家的工作内容高度同质:研究各种生物大分子(主要是蛋白质)的三维结构,例如新冠病毒主蛋白酶 Mpro(图1

 

该领域的数据库蛋白质数据银行(Protein Data BankPDB)则统一详细记录了结构生物学家的工作,也为这篇论文的实证检验提供了高质量的数据。打个粗糙的比方,结构生物学领域是一个解析蛋白结构的竞技场,而 PDB 就是这个竞技场的排行榜。

 

当前PDP数据中,大约九成的蛋白质结构是利用蛋白晶体的 X 射线衍射图样完成解析的(冷冻电镜技术近年来高歌猛进,但尚未赶上X射线衍射的分辨率),X 射线晶体学具体包含三个步骤(图2):

 

1. 蛋白质纯化和结晶。这个过程既枯燥又困难,往往要尝试数百个实验,改变温度、pH 和添加剂,找到能够使蛋白质结晶的苛刻条件。成功几乎都来自运气和耐心。

 

2. 一旦获得蛋白质晶体,科学家会将晶体送至同步加速器设施上进行 X 射线晶体学实验,获得衍射图样。高质量的衍射图样需要高质量的晶体,如果科学家想要做得更好,也得在第一步多下功夫。

 

3. 根据衍射图样,科学家可以反推出蛋白的结构,经过一系列的优化调整(refinement),使推断出的结构尽可能精确符合衍射图样。这是一个迭代过程,同样需要耐心,最终产出的质量也很大程度上取决于投入的时间。当科学家认为自己解出的结构已经足够好,就会在 PDB 上传自己解得的结构数据,并向同行评议期刊投稿。

 

绝大多数期刊和一些基金委都会要求学者在投稿前将结果提交至 PDB 存档。目前,PDB 已经有十万多个蛋白质的结构,且这个数量正在以每年 10% 的速度增长。PDB 上记录了科学家获得晶体数据的收集日期(collection date)以及上传结构数据的存档日期(deposition date),作者用两个日期之差作为因变量之一:成熟期(maturation period),衡量科学家在解析结构中花费的时间。PDB 的记录如图3所示。

 

作者提供了刻画科研竞争的一个模型,设定如下:

 

每个科研项目有不同的事前潜力P ex-ante potential)。越重要、影响力越大的研究,事前潜力就越大,能给科学家带来的声誉奖励也就越大。

 

蛋白纯化结晶过程相当耗费人工,因此前期投入的人工是不可忽略的沉没成本。前期投入的沉没成本 I 越多,成功获得晶体、启动项目的概率g(I) 就越高。

 

启动项目后,科学家要决定在项目上投入多少时间m 。科学家需要在工作的质量Q(m) 和被他人抢先的风险之间进行权衡:投入时间越多,完成质量越好,被他人抢先的风险也越大。

 

4展示了两个科学家 i , j 相继完成同一个工作,获得各自声誉奖励 图片和图片的情形。参数图片和图片衡量声誉如何在第一名和第二名之间分配,显然在现实中有图片(作者的另一篇论文估计结构生物学中第一名的声誉分成图片为 0.55)。

 

此处略去模型推导过程,只给出三个可检验的理论命题:

 

1. 项目潜力越高,科学家就会投入越多的沉没成本,成功启动项目的概率就越高,即项目的竞争越激烈。

 

2. 竞争越激烈的项目,被完成得越快,质量就越低。

 

3. 由前两个命题通过链式法则得到:越重要的研究,被完成得越快,质量也越低。

 

对这三个命题的实证检验涉及五个变量的衡量:

 

1. 完成质量:在结构生物学领域,对生物大分子结构解析工作的质量有一系列客观的评价标准:

 

Refinement resolution:类似于图片的分辨率,衡量结构模型的精细程度,如图5

 

R-free:模型拟合度,衡量结构模型与晶体数据的拟合程度。

 

Ramachandran outliers:模型中构象不合理的氨基酸残基占比,衡量结构模型与基本化学规律的冲突程度。

 

以上三个质量指标均由 PDB 计算并校验,科学家无法谎报或操纵数据。作者将以上三个质量指标各自标准化,加总后再标准化得到主要因变量质量指数(quality index)。

 

2. 成熟时间:如前文所述,是从收集日期到存档日期之间的时间。

 

3. 成功启动项目的概率:这个变量决定了项目的竞争性,作者用两年内同一个蛋白在 PDB 上被存档的次数作为项目竞争性的代理变量。用事后成功次数作为事前成功概率的代理变量必然有测量误差,因此在回归中作为自变量时就会带来衰减偏误(attenuation bias)。然而,前述理论预测便提供了项目潜力作为竞争性的工具变量,从而使得这个问题可以用 2SLS 来解决。

 

4. 科学家投入的沉没成本:科学家对项目的总投入是难以测量的,作者使用了每个结构和对应论文的共同作者数量作为科学家对项目投入的人力成本的衡量。

 

5. 项目的事前潜力:对于项目的潜力,可以用研究事后得到的引用数来衡量。但事后引用数不仅与项目潜力有关,还受到项目完成质量的影响。为了干净地测度事前潜力,作者选择仅使用项目的事前特征来预测引用数,作为项目潜力的衡量。作者用 LASSO 方法避免过拟合,项目的事前特征包括大分子的类型、功能、来源、相关基因、以及此前的研究程度和发表年份。LASSO 验证的结果如图6R2 = 0.19

 

变量描述性统计见表1

 

1 描述性统计

 

02经验策略和主要结果

 

作者用一系列 binscatter 图清晰明了地展示了几项实证结果。图7和图8对应命题1:项目的被引潜力越大,投入作者数量就越多,竞争也越激烈;图9和图10对应命题3:项目的被引潜力潜力越大,成熟时间就越短,完成质量也越低。对于命题2,作者采用了 2SLS 方法检验,详见原文。图中各因变量均已控制存档年份固定效应,正式回归结果见原文。

 

7 项目潜力与投入作者数

 

8 项目潜力与竞争性

 

9 项目潜力与成熟时间

 

10 项目潜力与完成质量

 

对本文的识别而言,最大的潜在威胁就是项目潜力和复杂度可能有关。如果潜力高的项目也更复杂,那么较低的完成质量就可能并非来自较强的竞争激励,而是由于较高的项目复杂度。作者提供了三个证据来排除这个混杂因素。

 

首先,图9中的结果就与复杂度假说相矛盾。既然潜力越大的项目也越复杂,那么它们应该花费更多的成熟时间,这并不符合图9所显示的负相关。

 

其次,可以在回归中控制复杂度。作者在先前的回归中加入了蛋白的分子量、原子数和氨基酸残基数这三个衡量结构复杂度的变量。结果显示,在完成质量对被引潜力的回归中,加入这些变量后的模型 R2 有明显提升,但被引潜力本身的系数却没有大幅缩小,依然显著为负(表2)。

 

2 控制复杂度的回归结果

 

在第三个证据中,作者利用了一组不受竞争激励影响的「对照组」科学家,用类似双重差分的方法,更干净地分离出竞争激励的效应。这个对照组来自世界各地非营利的结构基因组学(structural genomicsSG)研究机构。相比大学里的科学家,SG机构的科学家不那么注重抢先发表,也就缺乏这方面的竞争激励,他们的目标纯粹只是解出结构,提供科研公共品。在作者所用的样本中,有20%的结构来自SG组织,而它们中的绝大部分并没有被发表在学术期刊上。

 

结果如图1112,可见,两组科学家对项目潜力差异的反应明显不同:

 

在成熟时间上,SG科学家会在潜力大的项目上花费更长的时间,这与复杂度的解释相符,而非SG科学家则相反;

 

在完成质量上,对于潜力小的项目,两组科学家的完成质量没有差异,而对于潜力大的项目,非SG科学家的完成质量则显著低于SG科学家。

 

复杂度是蛋白结构的固有性质,与科学家是否属于SG机构无关,那么两组科学家表现出的行为差异就不能用项目复杂度来解释。正式回归结果也得到了显著的交互项系数估计,详见原文。

 

11 成熟时间:SG与非SG项目的比较

 

12 完成质量:SG与非SG项目的比较

 

03 福利分析和政策优化

 

前文所做的实证分析已经说明,竞争激励导致了低质量的科研成果。但要了解其社会福利影响,以及如何改进有关政策,仍需细致的规范分析。为此,作者首先补充了两项检验:竞争造成的质量下降是否足以影响下游研究的进行,以及抢先发表的质量损失是否能被后续研究修正。

 

根据生物化学有关文献,基于大分子结构的药物研发,结构质量是决定性因素之一:分辨率达到 2.5 Å 或以下且 R-free 达到 0.25 或以下的结构才可以用于药物研发。而在非SG科学家产出的结构中,有35%无法满足前者,45%无法满足后者。作者匹配了大分子结构和有关的药物数据,在图13 binscatter 中直观展示了大分子质量与药物研发的关系:结构质量越差,下游药物研发就越少。可见,竞争造成的质量下降的确会延缓下游的药物研发工作。

 

13 结构质量与相关药物数量

 

为了让结构可以用于药物研发,就需要通过后续研究进行质量改进。作者首先指出,后续研究者想要做出边际上的质量改进,需要重新像前人一样投入一笔沉没成本(通常包括一年以上的时间以及十万美元以上的经费)。在这种设定下,只有高潜力、低质量的研究是值得重复的。事实上,的确是这样的研究更多地被重复(图14Panel A)。重复研究也有效弥补了前人研究的质量缺陷,对于高潜力的项目,重复研究将结构质量提高到了与低潜力项目相近的水平(图14Panel B)。显然,更有效率的理想情形是首个研究者就给出高质量的结果,无需后人再次改进。

 

14 后续研究的数量与质量

 

竞争是把双刃剑,如何用好它?论文中,作者的福利分析指出,声誉分配参数图片和图片是一个可用的政策抓手。最优的分配比例应该介于赢家通吃与平分之间,因为过度缺少竞争激励也会引起科研投入不足的负效应。

 

04总结与点评

 

「越重要的研究,完成质量越低。」这篇论文利用结构生物学领域的特有数据验证了这个讽刺的事实,揭示了当前赢家通吃的科研激励制度造成的负面后果。从论文的结论中看,虽然高潜力研究最终也可以通过重复研究达到与低潜力项目相当的水平,但在重复投入和竞争中浪费的人力和物力是社会福利的净损失。

 

基础研究本来是由自身兴趣驱动的娱乐活动,在现代大学在德国兴起之前,科学家不是权贵本人就是权贵的门客。请看这张被很多世界名著拿来当封面的拉瓦锡与夫人肖像,拉瓦锡作为法国最富最被人嫉恨的的若干包税人之一,自然有充足的经费和闲暇来从事研究工作。对于权贵来说,科学家只是门客(艺术家,演员,弄臣,术士)中的一种,权贵们对科研成果也比较佛系。

 

在这个科研的田园时代,是不讲 KPI 的,不数文章也不没有人才帽子的。当「科学技术是第一生产力」逐渐成为共识,大学和公共研究基金取代权贵成为基础研究的主要赞助人之后,科研就成为了一种职业。偏偏这种职业的产出很难衡量,这让管理者十分伤脑筋,怎么才能让手下这帮科研牛马们不摸鱼呢?常见手段就有竞争机制,比如放出一个帽子让十个科研工作者抢,在规定时间内发表论文影响力大(数量多)的胜出。

 

满足 KPI 计件的科研产出与科研本身的追求是有抵触的。田园时代的科学家们不会轻易发表做得不够好的成果,十年磨一剑是很常见的现象。比如高斯把大量不满意的成果藏在手稿里不发表,就有了这样的故事:

 

勒让德:我发明了最小二乘法!

 

高斯:我十年前就发明了,就是没公开发表。

 

勒让德:我发现了二次互反律!

 

高斯:看我笔记,有七种证明方法。

 

勒让德:我证明了代数基本定理!

 

高斯:看我笔记,你的证明是错的。

 

勒让德:……

 

黎曼:我发现假定第五公设不成立可以另造一套几何学。

 

高斯:比我琢磨了几十年的东西厉害,年轻人有出息,给你个教职吧。

 

现代的普通科研工作者们是无法像高斯一样沉住气的,「争做第一」表现给赞助人看,保住饭碗和科研团队才是最优先的事情。这造成了科研工作者们不得不更快更糙地发表科研产出,甚至造假(小保芳晴子事件)。

 

如果关注颜宁姐姐的微博,可以窥探到结构生物学的业界生态:一个热门蛋白往往有多个研究组并行研究,解出结构之后(甚至还没完全解出时),通宵达旦写出论文投稿,争夺第一个发表的荣誉。没抢到的竞争研究组则浪费了研究经费,博士毕业可能延期。施一公和颜宁师徒正是抢第一的好手。这篇论文通过模型推导建议给第二完成者分配部分声誉,这样可以让研究者更耐心一些以提高研究质量。这篇论文尚未涉及由于追逐热门蛋白本身造成的重复投入问题,我们可以设想一下如果让最多 2 个团队解一个蛋白,回避激烈的竞争,或许热门蛋白的结构解析会晚个一年半载,相比于药物研发的漫长周期,推迟这点时间应该无妨;而空出来的团队可以解出几个不那么热门的蛋白,对基础研究贡献更大。

 

本论文作者以结构生物学为样本研究科研竞争的效果,那么结构生物学能否代表科研工作呢?结构生物学研究的「后勤」与一般科研是类似的,但是研究的动机、问题的寻找却大有区别。结构生物学领域自身不产生新的研究问题,每当其他领域发现某蛋白有重要功能时,这个蛋白就进入结构生物学,成为待解的问题。我们可以看到结构生物学的思路接近于工程:出现一个问题,用现有的工具和方法(衍射、冷冻电镜……)解决。

 

作者之一的 Carolyn 是创新领域顶尖专家 Williams Heidi 的学生,话题和方法继承了导师的风格(参看香樟推文《专利阻碍了创新了吗?来自人类基因组测序竞赛的证据》介绍了 Williams 基于人类基因组计划的论文。)这篇杰出的工作市场论文预期也将在 Top5 刊出。这个话题并不会因为这篇论文的结论而下定论,与结构生物学相似的还有纳米材料,有机化学等某些子领域,如果做个类似的分析,依然有重大的意义。按照作者论文的主张推测,作者在审稿时应对这类争第二的研究多加包容。

 

Abstract

 

This paper investigates how competition to publish first and thereby establish priority impacts the quality of scientific research. We begin by developing a model where scientists decide whether and how long to work on a given project. When deciding how long to let their projects mature, scientists trade off the marginal benefit of higher quality research against the marginal risk of being pre-empted. The most important (highest potential) projects are the most competitive because they induce the most entry. Therefore, the model predicts these projects are also the most rushed and lowest quality. We test the predictions of this model in the field of structural biology using data from the Protein Data Bank (PDB), a repository for structures of large macromolecules. An important feature of the PDB is that it assigns objective measures of scientific quality to each structure. As suggested by the model, we find that structures with higher ex-ante potential generate more competition, are completed faster, and are lower quality. Consistent with the model, and with a causal interpretation of our empirical results, these relationships are mitigated when we focus on structures deposited by scientists who – by nature of their employment position – are less focused on publication and priority.

转自:香樟经济学术圈

 

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com