从NeurIPS论文来看，中美学者很少互相引用

2022/11/30 17:32:31　阅读：205　发布者：

来源：机器之心编辑部

想要改变这种情况还很难。

不知从何时起，我们习惯了人工智能的学术顶会上中美研究数量排名前两位的形势。不论在工业还是学术上，两者很大程度上引领了技术的发展，中美的交流也非常密切：不少大厂都会在对面设立研究院，每年都有很多人会前往美国留学，或进行学术交流。

然而一份新的统计研究认为，中美这两个领域内最重量级的玩家似乎不太对付：

不仅不互相引用，连话都不说。

这份研究引发了人们的热烈讨论。要知道，以最著名的 NeurIPS 为例，光是美国的论文数量就超过了接收总数量的一半。

NeurIPS 2021 的论文来源统计。

说前两名缺乏学术上的交流，属实有点反直觉了。然而这份研究的统计数据已经列好，而且还要在几天后的 NeurIPS 2022 上开一个研讨会。

近年来，中国关于 AI 的研究迅速增长，就全球最负盛名的 AI 学术会议之一 NeurIPS 发表的论文总量而言，中国目前是仅次于美国的第二大国家。根据统计，2020 年，来自中国机构的论文数量占 NeurIPS 所有论文的 13.6%，到 2021 年，这一比例增加到 17.5%，相对增长了 28.7%。

尽管中国是 AI 强国，但中国与美国机构之间的合作比美国和西欧机构之间的合作要少。有趣的是，这些研究者还在机器学习会议上组成了不同的社交群体，比如说在交谈和用餐这些小事上，中国的研究人员经常是与欧洲和北美的研究人员分开的，彼此缺乏互动。

本文中，来自爱丁堡大学以及艾伦人工智能研究所等机构的研究人员，对中国研究人员和美国研究人员之间的差异进行了探索。研究中他们采用了 NeurIPS 引用数据，以此来分析美国和中国机构对学术研究的影响。结果发现中国机构对美国和欧洲的论文引用很少（under-cite），而美国和欧洲机构对中国的论文引用也很少。

论文地址：https://arxiv.org/pdf/2211.12424.pdf

中国和美国相互引用较少

中国和美国研究界之间的这种隔离有多严重？作者做了以下一些研究。

他们将从 AI 学术搜索引擎 SemanticScholar 上获得的 NeurIPS 论文的引用数据与从清华学术知识图谱 AMiner 的作者的机构信息结合起来，制定了一个引用图。具体来说，该研究首先从 NeurIPS 网站上收集了 NeurIPS 2012 - 2021 年的所有论文标题，之后使用 S2AG(Semantic Scholar Academic Graph) API 将论文标题映射到对应的 Semantic Scholar paper ID。对于那些不匹配的论文，该研究进行了手动搜索。每一篇论文都使用 S2AG API 来识别作者，以及参考文献中的论文作者。

接着，该研究使用 AMiner 识别每个作者的机构信息，结果发现在 9460 篇 NeurIPS 论文中共有 135941 位作者，其中有 83515 名作者找到了机构（占比约 61%）。此外在 AMiner 上有还有 4038 篇没有作者的论文被从数据中删除。接下来，该研究自动标记机构，包括国家名字以及常见的城市和地区。除此以外，该研究还删除了主要的跨国公司实验室（例如谷歌、Meta、微软、腾讯、阿里巴巴或华为）。

在剩下的 5422 篇论文中，该研究删除了不在特定地区（中国、美国、欧洲）或包括多个地区合作者的论文，最后只剩下 1792 篇论文用来研究。得出的结果如下

根据图表显示，我们可以看出美国和中国的论文在多大程度上没有引用对方的文章。从中国对美国论文的引用量来看，虽然美国论文占了数据集的 60%（总共 1792 篇，图 1 左显示美国大约 1100 篇），但它们被中国论文引用的数量只占 34%（图 1 右）。

美国对中国论文的引用差距则更显著：虽然中国论文占数据集的 34%，但它们只占美国引用数的 9%。

作为对比，我们来看看美国对欧洲论文的引用，对比很明显：尽管在此次实验中，NeurIPS 论文数据集中的中国论文数量是欧洲论文的 6 倍，但美国机构引用中国论文的频率低于欧洲论文。

该研究还观察到每个地区自引的频率都高于被其他地区引用的频率：中国为 21%，美国为 41%，欧洲为 14%。美国和欧洲的研究界有着相似的引用行为，对中国论文的引用很少，而中国机构引用美国和欧洲论文的频率低于其他地区。

不过也有网友认为：来自不同国家的机构可能会侧重于不同的领域（例如 NLP 中的 ML 方法、数据效率等）。他们很少引用他们领域之外的论文。

需要注意的是，该研究忽略了很多复杂的因素。首先，虽然统计认为任何位于美国的大学的工作都归属美国，但美国实验室可能仍与中国机构有密切联系，这可能导致作者高估了美国和中国人工智能研究之间的隔阂。例如，美国存在大部分或全部由中国留学生组成的实验室。

同样，返回祖国的中国国际学生可以为母校和其他机构带来国际联系。我们无法衡量这些毕业生在多大程度上改变了他们的引用模式，变得关注国内论文，或是继续广泛引用美国的工作。此外，对于研究论文范围的限制也影响了结论的可信度。

结论

虽然美国和中国的研究人员经常在同一个学术活动上发表论文，但他们代表了两个平行的社区，相互之间的影响低于应有的程度。这种分歧可以归因于对不同主题的兴趣，因为文化氛围会影响研究重点。例如，多目标跟踪在中国是一个活跃的研究领域，有流行的大规模基准。

然而在北美，对滥用生物识别数据的批评导致研究人员回避相关任务和数据集。同样，在 FACCT 等公平性会议上，美国研究者的贡献往往较多，而中国的代表人数仍然有限。然而，即使是在中国流行的抽象主题或架构在其他地区也未必流行。PCANet 是一个来自新加坡研究实验室的图像分类架构，有 1200 次引用，主要来自中国或东亚机构。南京大学开发的 Deep Forests 获得了 600 多次引用，其中大部分是国内研究。

受地区间缺乏交流限制的不仅是研究课题。近年来，北美和欧洲的 AI 社区已经开始就 AI 的伦理考虑进行对话和发表研究。根据这些思考，AI 会议系统地要求审稿人关注道德问题，并要求作者撰写道德声明或清单。然而，与中国研究人员就这些主题进行的接触仍然有限。

这种脱节的一个例子是 NeurIPS 道德规范的临时草案。在最初出版时，提出者主要隶属于美国大学、美国跨国公司和澳大利亚的一所大学，没有一位作者常驻亚洲。尽管观察家们注意到中国人工智能机构的道德声明有许多相似之处，但这种缺席是存在的。

另一方面，尽管美国和中国研究人员在伦理声明中存在这些相似之处，但在研究实践中仍存在具体分歧。两个社区之间的分离对个体研究人员、整个机器学习社区以及可能受 AI 研究影响的社会都有真正的影响。

最后研究人员表示，人工智能社区已经很久没有就如何克服这一障碍进行对话了。

众所周知，充分的学术交流可以促进技术发展，中美在 AI 领域内论文互相引用比例少的现象，一定程度上反映了两部分学者之间的隔阂。近年来，国内 AI 社区快速发展，形成了活跃的生态，但此类的现象仍然值得我们担忧。

在这其中，除了语言文化方面的问题，也有一些「不可抗力」。

这位学者就抱怨有时候他们是主动避免交流。

看来想要改变这一情况，还有很长的路要走。

转自：“arXiv每日学术速递”微信公众号

如有侵权，请联系本站删除！

上一篇： 中国学者合作研究微纳机器人集群的逆重力自组装，成果登《Science Advances》
下一篇： 清华大学提出OrdinalCLIP，基于序数提示学习的语言引导有序回归

投稿问答最小化 关闭

从NeurIPS论文来看，中美学者很少互相引用

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

从NeurIPS论文来看，中美学者很少互相引用

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭