论文引用的马太效应：高被引论文更会引用高被引文献

2024/4/10 16:28:00　阅读：64　发布者：

高被引文献是同学科领域中被高度认可的文献，也在一定程度上体现了论文的质量。而对高被引文献施引规律的探究可以在一定程度上探析高质量论文的理论基础和知识构成。以中文社会科学引文索引(CSSCI)中的图书情报学来源期刊作为检索对象，在CSSCI数据库中遴选出图书情报学的高被引论文，获取这些论文的参考文献信息。然后，用文献计量学的相关方法研究高被引论文的参考文献的被引特征，得出了高被引论文倾向于引用高被引文献的结论。结论一定程度支持了牛顿假说，即“我看得之所以比别人远是因为我站在巨人的肩膀上”，亦即“学术精英”(高被引论文)在学术科研领域起到了中流砥柱的作用。

关键词

图书情报学；高被引论文；文献计量学；引文分析；牛顿假说；

期刊论文是科研工作者最新研究成果的集中体现，也是学术交流和传播的重要载体，论文之间的相互引用在一定程度上表现了文献之间的知识交流与扩散 ”。期刊论文的被引频次能够客观地反映出期刊论文的学术价值和在学术领域的影响力，因此，国际上普遍采用论文的被引频次作为评价科研水平的标准 [2]。高被引论文是指被引用频次相对较高，被引用的周期相对较长的学术论文。论文被引频次较高，一定程度上可以认为论文具有较高的学术价值，因此，近年来对高被引论文的研究也成为了热点。

学术研究领域的高质量成果是“站在巨人的肩膀上”一“牛顿假说”(N)，还是主要依靠普通大众学者一“奥尔特加假说”(o)，还是两者贡献均衡的“牛顿一奥尔特加假说”(N—O)。在此之前，作者已分析了SCI数据库中的图书情报学和纳米技术领域的高被引期刊论文数据，以及图书情报学和纳米技术领域的学术精英发表的文献，结果一定程度支持了牛顿假说，即高质量的论文引用了更多高质量的论文——“站在了巨人的肩膀上”。但是中文的高被引期刊论文的参考文献的施引特征则鲜有人研究，其引文分布是否也支持牛顿假说还需要进行实证研究。本文以中文社会科学引文索引数据库(CSSCI)为数据来源库，搜集图书情报学科的高被引期刊论文，通过实证来探究其参考文献的施引特点。

数据收集与处理

1.数据来源与参考文献数据获取

本文拟以CSSCI收录的图书情报学科期刊作为高被引论文数据源。为了尽可能全面搜集此学科领域的论文，我们参考了CSSCI在2010—2015年间公布的三期目录，其中图书馆、情报与文献学共有21种来源期刊，去除《档案学通讯》、《档案学研究》这两种与图书情报学科关联较小的期刊，其余19种期刊信息汇总如表1所示。

在文献计量学中，普赖斯定律被广泛用来确定高产和高影响力作者的，但是鉴于高产作者和高被引论文的分布具有相同或相似的规律[11]，因此本文也使用普赖斯定律确定高被引论文。

由于这些高被引论文的被引次数在[6，260]区间上分布极不均匀，所以在分组统计时采用不等距分组，组距以5或5的倍数为宜，兼顾每组的论文数量。最终分别按照被引频次大于20次、11～20次、6～10次三组统计高被引论文的数量，统计结果见表2。

由于中文文献没有唯一的标识码，所以用文献篇名和作者两项信息来识别每一篇文章。CSSCI数据库中把参考文献分为“期刊论文”“图书”“报纸”“会议文献”“学位论文⋯‘信件”“汇编”“报告”“标准”“法规”“电子文献”以及“其他”12种类型。本文使用研究团队共同研制开发的爬虫工具，在获取论文的参考文献信息时，不仅可以记录参考文献的篇名、作者信息,还可以获取参考文献的文献类型,这将有助于下文对施引特点更加精细的研究。经验证,CSSCI数据库中对文献类型的编码有如下表3中的对应关系。本文批量获取了上述5173篇高被引期刊论文的参考文献信息,分别记录了“篇名”“作者"“类型"三种属性。

由于“信件"“汇编”“报告”“标准”“法规”和"其他"6类并不是常见的文献类型,并且没有标准的格式无法进行批量检索,而“电子文献”所包含的内容更加复杂,检索的准确度也较差。因此本文只对“期刊论文”“图书”“报纸”“会议文献”和“学位论文”这5类参考文献进行被引检索,为了便于叙述,把这5类文献统称为“论著类”文献。经过程序处理,被引20次以上的文献去重后共获得3515篇参考文献,其中“论著类”文献2461篇;被引11-20次的论文共有9120篇(已去重)参考文献,其中“论著类”文献6574篇;被引6~10次的文献共提取21 927篇(已去重)参考文献,其中“论著类”文献16 881篇,并将其命名为数据集2用CSSCI被引文献检索的高级检索功能查询每篇“论著类”文献的被引次数。由于篇名一般较长,而且可能会包含标点符号以及连接词等可替换的字符,所以对篇名做精确查找的准确度较低。相比之下,文献的“作者”比较精确而且不易出错,在精确匹配的条件下能够更准确地查找出目标文献。所以,在进行被引次数检索时,查询条件为精确匹配“被引作者”而且“排除作者自引”,“被引文献篇名”非精确匹配,查询示例如图1所示。在CSSC数据库中,用上述查询条件检索时可能会有多条查询结果,通过人工试验,发现查询结果里的多条记录实为同一篇文章。对于期刊论文,出现查询结果不唯一的原因大都是发表时间、期数以及卷号录入错误、遗漏,从而在数据库中被当作不同的文献而分别统计被引次数;对于图书,差错往往是因为出版年份录入的错误。所以当出现多条查询结果时,本文是把所有结果的被引次数相加作为被查询文献的被引次数。

2.数据分析

使用上文的检索方法,本文分别检索了被引20次以上、被引11~20次和被引6-10次文献的参考文献的被引次数，经过处理总共获得超过2.5万篇“论著类”文献的被引次数，形成数据集3。每个被引等级里的参考文献均根据被引次数降序排序，然后按照被引次数≥1000,≥500, ≥50, ≥20,≥10, ≥5分别统计文献篇数，见表4。

统计结果显示,高被引期刊论文的参考文献被引次数均较高。被引20次以上、被引11~20次、被引6~10次文献的参考文献平均被引用次数分别为48.38、22.76和16.75次,这表明论文质量越高其引用的参考文献质量也越高。

为了对比不同层次文献的施引特点,消除文献总数的影响,对表4中的数据进行了标准化处理,求得引文篇数分别占“论著类”文献的比例和占所有类型参考文献的比例,结果见表5,从表中可以看出无论是占“论著类”文献比例还是占全部参考文献比例,其变化趋势都是相同的,即高被引期刊论文引用的文献质量也很高,图2的折线图更直观的反映出这个趋势。

如图2所示,以占“论著类”文献比例为例,被引20次以上文献的参考文献中被引次数≥1000的比例为0.33%,而被引11~20次文献以及被引6-10次文献的参考文献被引次数≥1000的比例分别为0.23%、0.16%,比例呈现出递减的趋势,即文献的被引次数越高，其参考文献中高被引论文所占的比例也越高。不论参考文献被引次数在什么范围(≥1000、≥500、≥100、≥50、≥20、≥10、≥5)，被引20次以上文献的参考文献被引比例都要高于被引l1—20次文献的，更高于被引6一l0次文献的。当我们分析“占参考文献比例”(即占所有类型参考文献的比例)的时候，这个趋势依然相同。

随着我国学者外语能力的提升，获取外文信息的能力显著提高。中文文献的参考文献经常会有英文文献，图书情报学科也不例外，在本文的研究中也获取了很多英文参考文献记录。虽然CSSCI也能查询英文文献的被引频次，但是其查询结果并不理想。经手动测试，当英文篇名含有“and”“or”等查询关键词的时候，检索就会出错。因此，为了去除英文数据不准确的影响，本文从所有的参考文献中筛选出中文文献，并单独统计中文参考文献的数量。其数据统计方式与上文类似，处理结果分别如表7、表8和图3所示。

从表8中可以看出，只考虑中文参考文献时，其高被引的比例更大，高被引期刊论文引用高被引论文的趋势更加明显。被引次数≥5的中文参考文献数量占“论著类”中文文献比例分别为57.31％、49.34％、39.12％，均超过了1／3。对于被引在20次以上的高被引期刊论文为例，这些文献的“论著类”参考文献一半以上都是高被引论文。图3中所反映的中文参考文献变化趋势与所有参考文献的比例变化是一致的。在横坐标上的任意一点上，越是高被引论文，其参考文献中的高被引论文比例越大。

值得注意的是，本研究是分别使用文献被引用的次数(被引20次以上，被引11～20次，被引6—10次)作为标准。而文献[9]中对图书情报学科的英文高被引期刊论文施引特征进行了统计分析，该文中在衡量高被引论文时使用了总文献的前1％、前1％～2％、前2％～3％、前3％～4％作为标准筛选出高被引论文，前2％文献的被引次数范围是23—4327，因此可以用前1％和前1％～2％的数据加和与本文的被引20次以上文献数据进行对比，大致分析图书情报学科中英文高被引论文的参考文献的施引差异。对于前2％的英文文献，经过计算其参考文献的被引次数≥1000、≥500、≥100的比例分别为4.55％、10.40％、49.39％，远大于中文文献的统计结果。一方面是因为研究英文文献是以web of Science核心合集作为数据来源。相对于CSSCI，此数据库的收录期刊数量和论文数量都很庞大，所以其被引用次数相对较高。另一方面，虽然web of Science核心合集所包含的期刊较多，但是期刊的质量都较高，其收录的论文质量也较高，因此该数据库里的文献被引用所代表的学术认同度仍然较高。在这种情况下依然能有这么高的被引次数，说明高被引期刊论文的参考文献中高被引论文的比例的确很高。相比之下，中文高被引期刊论文的参考文献中高被引比例较小。

3.结论与展望

从上文的统计分析中可以看出，在图书情报学科中，越是高被引的期刊论文其参考文献中的高被引期刊论文所占比例越高。我们得出如下结论：高被引期刊论文倾向于引用高被引论文。即高水平的研究更多建立在高水平的研究基础之上，这一研究一定程度支持了牛顿假说。结合文献[9]可以说明，在科学研究领域，高质量学术研究必须建立在前人大量高质量的研究基础之上。同时启发我们，科研人员在从事一项科学研究时，尝试学会发现、了解并掌握本领域和相关领域的重要文献的重要性(可通过导师和学术同行的推荐、还可以借助信息可视化软件的帮助)，以汲取其学术精华。科学的发展也正是在一代代科学家们不断地对文献质量的判断和选择过程中，将科学研究不断推向深化。

当然本文的研究也存在一定局限性，相比于web of Science数据库，CSSCI数据库所收录的期刊较少，收录的年限较短，所以其论文总量和参考文献信息总量均偏小。在检索论文及论文的参考文献的被引次数时，数值偏小，增加了研究的误差。此外，本文并没有考虑论文发表的年份信息。在只用被引次数衡量文献学术影响和价值时，发表时间较近的文献就很难被定义为高质量文献，所以这对本文的研究也会产生一定的影响。再次，高被引期刊论文的参考文献的被引次数处于高被引区还是低被引区，是受到多种因素的影响，除了与参考文献的质量有关外，还与引用了这些参考文献的高被引期刊论文引发的“马太效应”有关，这需要从历时态角度加以追踪方可确证，不过这在数据处理技术上是一个挑战。

转自论文大讲堂微信公众号，仅作学习交流，如有侵权，请联系本站删除！

上一篇： 如何发表核心论文：小技巧有大作用！
下一篇： 社会科学研究中的文献综述：原则、结构和问题

投稿问答最小化 关闭

论文引用的马太效应：高被引论文更会引用高被引文献

本文评论

暂无相应记录！

期刊论文热门文章

本站推荐

最近更新

投稿问答最小化 关闭

论文引用的马太效应：高被引论文更会引用高被引文献

本文评论

暂无相应记录！

期刊论文热门文章

本站推荐

最近更新

投稿问答最小化关闭