投稿问答最小化  关闭

万维书刊APP下载

怎样提高论文被引率?

2024/8/12 10:16:35  阅读:27 发布者:

01

引言

科技论文产出情况是测度科学技术发展水平的重要指标,国务院发布的《十三五国家科技创新规划》明确指出,自主创新能力全面提升是十三五科技创新的发展目标之一,其主要监测指标包括国际科技论文被引次数达到世界第二等科技产出定量测度指标。据2018年《中国科技论文统计结果》统计,SCI数据库2017年收录世界科技论文总数为193.83万篇,比2015年增加了2.2%。在此背景下,为了支持科技创新发展和提高自主创新能力,从海量新发表的论文中,挖掘出潜在高质量高被引论文显得尤为重要。

在引文分析中,被引频次是最具代表性、最简单、最标准和最客观的度量学术影响力的方法。引用行为通过被引频次进行表征,被广泛用于评价论文、专利、期刊等科学贡献,成为引文分析评价学术影响力的最具代表性的指标。论文引用一定程度上反映成果的传播力和影响力,是后续学者针对前期成果开展的更加深入或系统的研究探索。研究人员引用其他论文影响动机多样,例如支持性引用,支持自己观点、方法或研究结果;综述性引用,为了呈现其他研究人员已有观点;评论性引用,引用他人学术成果是为评判其观点正确与否[3],可能是正确示例,也可能是实验等设计不合理的错误示例。探究引用影响因素有助于科研人员把握学科领域发展趋势、识别领域研究前沿、关注有价值的研究方向,有助于学术期刊提高收录论文质量、提高期刊声誉。基于此,学术论文被引影响因素识别和预测有较大研究意义和价值。

近年来,国内外学术界从不同角度对引用影响因素进行了研究,其关注点主要集中在以下三个方面:(1)基于不同学科领域探究引文原因;(2)影响高被引、低被引或零被引的因素;(3)预测学术成果未来被引情况等。影响因素相关关系研究和预测分析充分探究传统文献计量指标影响程度,随着Web2.0和学术大数据不断深入发展,各个学科领域的科研数据日益丰富并迅速累积,涌现很多可用于引文分析的新型计量指标。纵观已有的研究成果可以发现,目前学术界对引用影响因素研究多为定量研究,针对几个或几类指标因素进行分析,因此本文在文献调查基础上,结合国内外相关文献分析归纳作者、期刊、论文和替代计量与被引相关的具体影响因素,总结主要的引用预测方法,指出目前学术论文引用预测研究存在的问题并展望未来发展趋势。

02

学术论文被引影响因素分析

论文引用行为是进行学术交流、知识共享及信息融合的客观体现。论文被引受多种因素影响,目前国内外学者针对被引影响因素主要从作者、期刊和论文影响因素进行相关分析,近几年针对替代计量因素与被引相关研究也越来越多。

2.1作者相关因素

作者是论文的创作者、主题思想的提出者,在大多数学科作者多位的情况下,除了通讯作者之外,名字排列的先后顺序表明了不同作者对文章思想和创作工作的贡献程度,排名越靠前则贡献越大,重要影响因素见表1

2.2期刊相关因素

期刊是学术论文重要载体,相关属性与论文被引存在一定相关关系。最典型的是影响因子,它是Gar⁃field1972年提出的一个期刊声望评价指标,是根据期刊被引次数与发文量计算的数量指标,期刊相关因素研究见表2

2.3论文相关因素

研究人员倾向于学术影响力好、水平高的论文,即可能高被引的论文。学术水平是否高与内容质量密切相关,也是论文被引最重要的因素。但现在对论文内容进行定量分析比较困难,研究人员主要聚焦于研究标题、摘要与关键词、论文类型、主题特征、学术价值、方法和实验设计、参考文献特点等与被引的关系。

论文标题是标明文章内容的简短语句,最直接地传达出全文主题,其长度、语言类型、有无标点符号等与被引有一定关联。Letchford等研究发现喜欢发表短标题论文的期刊,每篇论文的平均被引次数更高,标题应该简短精练专业知识,向外人解释研究成果。Feng等对标题简洁效应还是信息效应进行探讨,发现1956—2000年标题长度与引文负相关,但在2001—2012年转为正相关,原因是文献检索主要通过基于在线数据库的电子工具进行搜索,因此为科学论文选择信息标题将变得更加重要。Antoniou等研究发现在标题中说明研究核心设计可能多被引。Jamali等研究表明标题信息丰富会增加论文的使用、下载和引用频率,英文标题类型与被引有关;林佳瑜分析了中文标题类型、长度及有无冒号与被引关系,研究结果见表3

摘要是全文的内容提要,不加议论地直述文章主要内容,简单介绍研究背景、问题、目的、方法等。Di⁃degah等研究发现摘要长度对被引产生积极影响。Sohrabi等研究摘要中关键词重复比率和期刊高频率关键词与引用次数相关关系,发现在摘要中提高关键词重复率可增加引用,因为从检索技术角度来看这可增加搜索引擎中的被检索到的概率,从理论角度来看关键词与摘要相关度高可增加被读者使用的概率;期刊中某类频率高的关键词相关论文更可能被引用,因为当一本期刊在一个主题领域声誉较高,研究人员更容易引用此类论文。

论文类型有综述类、定量类、定性类、方法类、理论类等。Vanclay研究发现综述类篇均被引频次明显高于研究类,因为综述类论文对领域现状和发展趋势概括较全面,其他研究人员可看到领域主题演化趋势;Antonakis研究发现定量类、综述类、方法类及理论类论文明显比定性类多被引,定量类论文,若利用某些创新性的方法、设计及理论更易被引。谢娟等把数据集中论文分为研究论文、综述和会议论文,探讨三种类型论文的使用、被引情况及其相关关系,研究表明综述论文的使用量和被引量相关性最强,研究论文次之,会议论文两者的相关系数不显著。

论文主题是研究内容的概括说明和文章思想内核。主题判别指标主要有关注度、新颖性、热度、显著性等,与被引相关代表研究见下页表4

学术价值越高,影响力越大,被引机会就越多,但难以量化分析,研究人员多通过相关属性进行分析。Buela等研究论文价值使用专家评估的质量评分,发现评分与引用次数显著相关。段庆锋和潘小换发现以被引数、PageRank值为代理变量的学术价值与引文正相关,即学术价值水平越高,文献越容易被引用。谢娟等分别计算JCR4个质量等级中LIS论文被引和使用的相关系数,计算发现质量等级2>等级3>等级1>等级4,其中等级1论文下载或浏览后被引概率较低,可能与用户信息使用行为和引用行为的差异有关。

研究方法和实验设计是一篇文章创新之处的核心,很多研究证明两者存在相关关系。Miettunen等发现对研究方法做适当描述,方法论部分引用统计文献、提及统计软件名称是影响引用的主要因素,而统计方法类型(如基本统计方法)可能与引用无关。研究方法需要合理的思路设计应用,研究设计应用随机对照试验、系统评价和整合分析比单纯观察研究设计会带来更多被引。Bhandari等研究表明整合分析研究和随机对照实验会比观察研究和案例报告带来更多引用,而且Callaham等研究发现实验有对照组会增加被引频次。

参考文献体现作者对领域知识国内外研究现状的了解情况,数量、声望及多样性、全面性、相关性会影响被引。Roth等研究发现引用较低(但不是太低)于平均参考文献年龄的论文可能更多引用,而大多数引用旧文献的论文引用明显较少。Onodera等研究发现参考文献数量和等与论文被引相关。参考多样性指数即论文所引用的参考文献种类或领域数量和参考文献国际性增加了被引频次。

论文可见性和可访问性得益于开放科学背景下的开放获取、预印本存档、在线数据传播等。arXiv是康奈尔大学资助的为论文发表前提供访问的服务器,其中自我推荐或自存档影响论文被引。Henneken等还发现有数据链接的论文会更多被引。打破传统纸质期刊限制的开放获取平台不断涌现,主要学术出版商和期刊有PLOS ONENatureSciencePNAS等。OA期刊具有引用优势,具体研究结论见表5

2.4替代计量因素

随着Web2.0技术的发展,网络技术日新月异,创新2.0Innovation 2.0)更强调利用Twitter、博客、微博等在线社交媒体进行开放创新。在这样的时代背景下,替代计量学诞生,在短时间内引起学界广泛关注和研究,2011年以来用于学术交流的创新型平台和工具已经高达425种且还在不断增加,数据来源丰富、评价对象广、时效性强,拓展了论文评价和预测的广度和深度。替代计量因素主要包括使用数据和社交媒体数据。

2.4.1使用数据

使用数据包括浏览数据和下载数据。浏览数据(HTML格式)是指科研人员、大众用户等对一篇文献的摘要或全文浏览的次数。下载数据是浏览文献之后下载的次数,下载格式包括PDFXML等。近年来SpringerElsevierWileyPLOSNaturePNAS等学术出版商提供全文下载统计工具和不同的数据形式,可以对下载数据进行动态分析。浏览和下载等是被引的必经之路,因此引用数据的存在势必意味着前期浏览、下载和导出数据的大量堆积,浏览和下载数据能第一时间反映文献使用情况,时效性更强。Garfield[61]1996年就提出了利用网络下载量代替引文量以解决引文分析评价中的滞后性问题。20159WOS平台推出了反映针对单篇文献受用户关注程度的Usage数据,汇总两类用户数据:(1)文献的下载(使用)次数;(2)文献题录信息的导出(使用)次数。一些学者对使用与被引关系进行探讨,具体结论见表6

专业学术数据库论文被引与下载量相关性高于搜索引擎和开放获取平台中未经过同行评议的论文,其中论文质量起到了重要作用,同行评议分数高低在一定程度上可以判断科学研究的价值高低。这启示研究人员高度重视论文质量,选题新颖、方法严谨、逻辑缜密,提高论文在学术检索系统中的可见性,使读者们很快发现论文的学术价值,从而将潜在的、间接的使用转换成实质的、直接的引用

2.4.2社交媒体数据

Priem等提出Altmetrics用来衡量单篇论文层面的科学重要性,是在专业社区中识别新兴研究趋势和热点主题的有效方法,帮助学者尽可能迅速地捕捉出版时间不久有影响力的文章。Altmetrics是以Web为特征的定量研究方法,起源于网络计量学和文献计量学,依托于社交媒体、新闻网站、维基百科、科学博客等,目前4个主要整合分析工具是:Altmetric.comPLOS ALMPlum AnalyticsImpact Story

科学创新与交流方式趋向传统媒体与在线社交网络融合,科研人员是社交媒体重要的一部分用户,大多借助在线社交网络、学术平台和新闻媒体,将文章发布供读者免费阅读下载,可统计读者转载、评论、收藏等行为数据;也可组建社区进行学术交流讨论,为获取、分享、传播和评价科研成果和学术资源提供便捷方式。根据社交媒体用户群分为学术型社交媒体、大众型社交媒体、网络博客、传统主流媒体。社交媒体数据与论文被引关系研究近年相关代表性研究见表7

很多研究是针对一种因素或几种因素分别进行数据相关关系分析,没有细粒度综合分析影响因素重要性及相应传统主流媒体转载报道和网络科学博客转发评论的文本内容因素,也没有结合考虑论文被引最本质的因素——论文内容质量。社交媒体提高论文曝光度和可见度,是引用增加的重要因素,但只有创新程度更高或著名学者的论文才会被转载、分享、报道等。

03

学术论文被引频次预测方法

被引预测一直受到学术界的关注,研究人员非常关注学术成果当前和未来被引因素和被引情况,预测论文未来一定时间段内被引,可间接确定学术成果的价值。被引频次预测方法主要有基于回归分析、基于分类问题和基于引文网络的预测方法。

3.1基于回归分析的预测方法

对于论文引用的具体数据预测,一些学者是将引用预测转化为回归分析,即利用一篇论文的相关特征预测在未来某时间点的被引频次。回归分析是一种探究自变量与因变量之间相互关系的过程,研究数据之间非确定性的关系,将各影响因素作为自变量,未来被引次数作为因变量。

预测论文被引主要回归分析方法有多元线性回归、logistic线性回归、负二项式多元回归(NBMR)等。Saeed等基于书签计数和合作者网络建立预测回归模型,表明预测模型加入书签计数的效果优于单纯基于合作者网络。Onodera等选择6个主题领域,每个领域抽取230240篇文献,通过负二项式多元回归(NBMR)模型预测6年和10年引文时间窗口的被引频次,发现一些跨领域特性,Price index是最强的预测因子,参考文献次之,作者数量和成就关系较弱。宿晓燕建立基于论文-关键词二部图的论文被引预测模型,使用获得的待预测论文的邻居论文数据建立多元线性回归模型预测,用残差、AVE-RES和拟合优度做评价指标,预测结果表明P-K Model一定程度优于传统回归预测。

利用回归分析预测被引效果相对较好,应用广泛,原理流程清晰,预测样本可重复应用,验证结果较容易。但是回归分析预测进行求解时,为了得到较好的预测结果,会对数据集做一定预处理以便符合实验区间要求。Shi等为了消除在数据集中被引较低的出版物,删除被引小于10次的论文;Huawei Shen等选择数据集中发表前5年被引大于5次论文分析,这可能导致实验数据和真实情况有不一致情况出现。

3.2基于分类问题的预测方法

论文引用具有明显的长尾效应,因此一些学者提出对论文引用数量所处区间进行预测,转化为分类问题,基于研究目的定义分类标准,将数据集分成几个类别,把集合中待预测论文分到某一个具体类别中进行预测。预测粒度变粗,一定程度避免回归分析实验数据粒度细问题,可用较真实的实验数据,训练的模型更泛化。

基于分类问题的被引频次预测受到越来越多的关注。Dong等预测论文未来被引即作者h指数,制定一个二元分类任务:预测某位作者的某篇文章在未来某个时间点文章的被引频次是否能超过作者的h指数,研究发现论文主题作者权威性和出版地点是决定性影响因素。Chakraborty等使用分层学习的策略,利用启发式规则,论文引用模式分为六类,预测模型分两步:首先通过支持向量机将论文分类,然后使用符合搜索策略的论文训练支持向量回归预测论文的引用数量。耿骞等将论文引用预测定义为二分类问题,训练一个分类模型预测,引入GBDTXGBoostAdaBoost等集成学习方法,结果表明时间间隔长被引趋于稳定,集成学习算法可用于引用预测,作者和论文相关因素比出版物相关因素对引用的影响更大。

3.3基于引文网络的预测方法

1964年,Garfield首次提出了科学引文索引(SCI),并利用文献间的引用关系构建了某研究领域的引文网络(Citation Network)。基于引文网络的预测方法是利用拓扑指标预测未来引用情况,主要拓扑指标包括中介中心性、新知识所处学派的位置、网络结构变化等。大致从两个方向展开研究:以个体为对象和以整体网络为对象的网络结构分析法。前者主要分析网络位置和关系,如强弱关系、中心度及结构洞等;后者主要分析网络密度、派系及凝聚子群等。

研究者们基于引文网络预测论文被引频次进行了一些研究。Naoki Shibata等研究了两个主题领域的引用网络:氮化镓和复杂网络,发现如果过去被引频次可作为未来高被引的预测指标,那么中介中心性与长期引用是关联的。Sarigöl等通过对Computer Science领域十多万篇文献的合著者进行网络构建,识别出具有较高被引作者在合著者网络的中心性,发现论文发表时具有明显中心性的作者五年后论文具有高被引率,进而用一种监督分类方法对文献未来影响力进行预测。同年Davletov等在论文被引预测中,引入论文引文网络的时间和拓扑特征(如网络中心度、接近中心度、特征向量中心度等)来改进预测模型,经过几个引文数据库的数据的实证评估结果显示预测效果有所提升。Jia等基于真实引文网络,采用H指数而不是度衡量论文重要性进行链接预测,研究发现改善了Salton IndexSorenson IndexAA Index,验证了节点在引文链路预测中的重要性,提高了链路预测精度。

04

学术论文被引影响因素及预测发展趋势

关于学术论文被引频次影响因素和预测方法的研究国内外相关学者从不同角度和思路进行了深入分析,综合考量被引频次的影响因素并结合多种预测方法进行实证研究。但是,受到数据源和分析方法原理会有一些缺陷,需要尽量规避缺陷取得进一步的发展。

4.1传统计量数据、替代计量数据与网络学术文本综合分析

学术论文被引受到多重因素影响,基于作者、期刊、论文传统文献计量指标因素进行被引原因分析不够及时全面,需要结合替代计量指标进行分析。开放科学背景下,开放获取、机构知识库、出版商、社交媒体等对学术成果传播推广速度快,科研成果在线发表评价日益活跃,出现了更多像HTML浏览、XML下载等的使用数据及细粒度媒体数据,社交媒体、传统主流媒体、博客和自媒体等文本内容数据日益丰富;推动学术出版改革等的政策涌现,像20189月份的时候,欧盟针对开放获取(Open Access)政策的“S计划,要求在欧盟受到基金资助的论文都必须在完全开放获取的期刊上发表;李江[89]提出认可审稿人的学术贡献,此类同行评议、审稿信息数据已有科睿唯安旗下的PublonsElsevierRRPReviewer Recognition Platform)等公开,这些对学术成果传播和引用创造了有利条件。加入网络学术文本数据观点进行被引影响因素定量与定性分析,更加及时、全面、综合。

4.2细粒度定义分类预测方法

学术论文被引频次预测方法由最初的回归分析,发展到分类问题,更有两种方法的结合使用,随着预测要求越来越高,数据集合复杂程度提高,要求更加细粒度地定义分类预测方法。由于覆盖多学科的数据集合,针对多学科交叉论文数据进行研究,学科交叉程度提高,不同学科研究领域的论文被引模式存在较大区别,若对此类论文未来被引频次影响力进行测度需要结合学科融合交叉现状,更加细粒度定义分类,进而在新类别下进行预测分析。预测技术与方法需要结合自然语言处理方法、机器学习算法等对细粒度分类下影响因素进行重要性研究,甄别出相关度高和重要性高的影响因素,利用特征之间的关联关系分析结果,争取提高预测有效性和准确性。

05

结语

在数据密集型科研环境下,评价指标日益丰富,引用作为评价学术论文、科研人员或机构的科研水平和影响指标仍占有重要地位。本文通过文献调研对学术论文被引影响因素和预测方法现状与发展趋势进行了详细分析归纳,现有学术论文被引影响因素研究,主要从作者、期刊、论文和替代计量因素进行研究。(1)作者相关因素有作者数量、影响力、声望、过去被引量、国际和国内合作、发文量、机构和施引作者的认知行为;(2)期刊相关因素是总被引次数、期刊影响因子、排除自引后的影响因子、期刊载文量、引文特征、期刊基金论文比、期刊范围(专业或非专业、国内或国际期刊);(3)论文相关因素有论文标题种类及长度、摘要及关键词关系、论文类型、论文研究主题的相关特征(新兴度、关注度、新颖性、热度、显著性)、学术价值相关属性、研究方法及实验设计、参考文献数量及质量、论文可见性及可访问性;(4)替代计量因素有论文使用数据,包括浏览数据、下载数据、文献题录信息导出数据等,还有社交媒体数据,包括学术型社交媒体数据、大众型社交媒体数据、网络博客数据、传统主流媒体数据。学术论文引用因素多通过相关分析和预测分析进行判别影响程度,按照不同分类标准还可根据与学术论文内容直接相关与否区分为内在因素和外在因素,与科学研究过程相关与否区分为科学因素和非科学因素。

开放科学背景和学术大数据环境为学科创新了研究方法,拓展了指标数据获取的渠道、方式和规模,加速催生越来越多的学术科研平台和工具,为学术论文引用带来更大的优势。学术搜索由传统的信息检索转变为认知搜索,科研论文写作要从内外双重角度争取提高学术价值、研究方法和实验设计严谨性,发表到开放性高的平台提高可阅读性,学术论文数量激增,标题要直接介绍研究核心内容提高被搜索率等。引文影响因素评价研究要充分利用学术大环境的优势,争取利用新的数据来源获取新型复杂引文因素测度指标,例如开放获取日益深入,全文数据获取可以量化文本中具体内容(引用方法、结果或讨论等)引用总次数而不仅仅是元数据;新型指标引入要加强有效性分析,因为虽然因素指标名称不同但是相关评价信息内容可能相同,与现有指标相比没有明显的新学术评价附加值不要引入,容易造成重复工作;经过有效性和价值性检验的新进指标,要加强理论基础研究和数学框架支持,为后续指标用于跟广范围评价应用打好基础,经得起定性和定量研究。

自学术进修课堂微信公众号,仅作学习交流,如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com