以下文章来源于大学生科研竞赛 ,作者大学生科研竞赛
信息爆炸的时代,大数据思维能够帮助我们顺利解决全局数据的分析,从而得出准确的经验和规律。科学研究同样如此,只有对已有文献的研究进行科学全局的归纳总结,才能得出有价值的选题,明确研究方向!
在科研工作中,我们常常需要对海量文献进行挖掘分析,找出关键文献进行细读与研究,并锁定研究热点,探寻学科前沿。今天给大家介绍一下文献综述界的“大案牍术”——CiteSpace工具!作为一款功能强大的文献计量学软件,能够帮助我们对文献进行可视化分析。
你也许在很多大佬的PPT 、文献综述里看到过如此酷炫的分析图,可以清晰地帮助我们找到相关领域内已有研究地关键词、发表国家、时间演变等特征。不仅有助于我们选题,而且也能够提升读者的阅读体验,瞬间提升文献综述的科学性!
今天,小科就和大家分享一下如何使用CiteSpace吧!
01
CiteSpace是什么
NO.1 基本概念
CiteSpace(引文空间)是一款着眼于分析科学分析中蕴含的潜在知识,是在科学计量学、数据可视化背景下逐渐发展起来的一款引文可视化分析软件。由于是通过可视化的手段来呈现科学知识的结构、规律和分布情况,因此也将通过此类方法分析得到的可视化图形称为“科学知识图谱”。
NO.2 开发者
CiteSpace是由美国雷德塞尔大学信息科学与技术学院的陈超美博士,以及大连理工大学的WISE实验室共同研发的。
NO.3 数据来源
CiteSpace的文献数据来源主要有以下几种。但我们需要注意的是,不同来源的数据所使用的格式是有特定要求的。
1. Web of Science
格式要求:全记录与引用的参考文献纯文本。
2. CSSCI
格式要求:默认格式utf-8编码。
3. CNKI
格式要求:Refworks
4. NSF(NationalScience Foundation)
格式要求:nsf.gov:XML格式&research.gov:xlsx格式。
5. Derwent(德温特专利数据库)
格式要求:默认格式。
6. Scopus
格式要求:RIS(.ris)/CSV。
NO.4 研究前沿
CiteSpace的研究前沿所针对的是施引文献聚类,主要包括施引文献群组本身的内容,以及施引文献群组引用的参考文献。
NO.5 知识基础
CiteSpace的知识基础是某个学科领域中相对于研究前沿文献集的所有前期文献集合,也可以简单地理解为文献共被引聚类。
NO.6 理论基础
引文分析(CitationAnalysis)。这是一种利用数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引证与被引证现象进行分析,进而揭示其中的数量特征和内在规律的一种文献计量分析方法。
NO.7 技术基础
信息可视化(Information
visualization)。这是一个跨学科领域,旨在研究大规模非数值型信息资源的视觉呈现(如软件系统之中众多的文件或者一行行的程序代码)。
02
主界面
NO.1 菜单栏
1. Text(文本)
2. File(文件)
3. Project(项目)
4. Data(数据)
5. Visualization(可视化)
6. Geographical(地理化)
7. Network(网络)
8. Analytical(文献网络分析)
9. Overlay Maps(叠加分析)
10. Preference(偏好设置)
11. Help(帮助)
NO.2 项目(工程)区
1. 项目新建及编辑
点击“New”选项及“MoreActions”选项操作。
2. 修改所建项目参数
可供修改的参数主要包括Title、ProjectHome、DataDirectory、DataSource。
一般情况下,其他参数选择默认即可,不需另作改动。
NO.3 功能选择区
1. Time slicing
该功能即用来切分文献数据的时间年代。我们需要注意,时区分割设置应该与文献数据的时间范围相符。
2. Text Processing
首先是Termsource,我们需要选择聚类词来源,通常使用系统默认的“全选”选项。
其次是TermType,我们一般选择术语形式为“NounPhrases(名词短语)”。
3. Node Type
在此模块内,我们需要选择节点的类型。而不同类型的节点则对应着不同类型的图谱。
首先,针对施引文献的节点类型主要有以下几种:
→Author~作者共现图谱
→Institution~机构共现图谱
→Country~国家共现图谱
→Keyword~关键词共现图谱
→Term~术语共现图谱
→Category~学科共现图谱
→Paper~文献耦合图谱
针对被引文献的节点类型有以下几种:
→CitedAuthor~作者共被引图谱
→CitedJournal~期刊共被引图谱
→CitedReference~文献共被引图谱
4. Links
在CiteSpace的该模块中,我们可以计算节点之间连线的连接强度。
首先,在Strength选项中,我们可以分析对象数据之间的连接强度,具体包括Cosine、PMI、Dice、Jaccard等算法模式。
其次,在Scope选项中,我们可以分析连线连接的范围广度。
5. Select Criteria
在此模块中,我们可以设定阈值选择准则,或节点提取的依据。
CiteSpace会按照用户设定的阈值提取出满足各个时间切片的文献数据,最后将其合并到网络中。
6. Pruning
我们可以在这一区域选择网络的剪枝方式,对初步形成的网络进行修剪和优化,去除不重要的节点和连线,将关键性节点和连线更显著地呈现出来,从而使图谱更加清晰,可读性更强。
7. Visualization
即设置网络图谱的可视化模式。
8. 运行进度区
通过这一模块,我们可以看到软件计算和运行的机制与过程,主要包括处理过程和处理报告(SpaceStatus&Process Reports)两个区域。
03
基本操作流程
NO.1 数据采集(获取)
1. 我们需要从数据源获取ADs、arXiv格式的数据,根据对图谱类型的具体要求获取不同文件数据。获取方式主要包括以下几种:
→词检索(主题词检索、关键词检索)
→期刊检索
→学科检索
→作者检索
→机构检索
2. 在选定并保存文献数据后,我们可以点击“Data-Import/Export”,选择文献数据来源进行添加。
NO.2 数据转换
1. 首先需要在存有文献数据的文件(sentimentanalysis)中创建“Data”、“Input"和“Output”三个文件夹,并将获取的文献数据放置于“Input”文件夹。
2. 点击CiteSpace界面的“FormatConversion”选项,将数据转换至“Output”文件夹。
NO.3 数据处理
CiteSpace具备文件合并、文献去重、分隔符格式转换等数据处理功能。在转换过文献数据后,我们需要对其进行下一阶段的处理,具体可以划分为以下几个步骤:
1. 将文献数据的文件名改为系统所要求的“download.txt”格式。
2. 将“Output”中的文献数据粘贴至“Data”文件夹中。
3. 在CiteSpace中点击“New”选项创建新项目,并点击“MoreActions”设定项目参数。
4. 参数设置完成后点击“GO!”选项进行创建。
NO.4 软件启动
1. 阈值的选择(Threshold)
关于阈值的设置,我们可以主要采取三种较为通用的模式:
→第一种为“c,cc,ccv(默认0.2)”
→第二种为“TopN(前N个)”
→第三种为“TopN%(前N%个)”
2. 时区的选择
3. 叠加分析
4. 文本挖掘
5. 剪枝方式的选择
首先,我们可以根据文献数据量和图谱效果来选择不同的剪枝算法,具体包括以下两种:
→Pathfinder(寻径)
这一算法可以生成唯一解,呈现节点之间的显著性关系,但有时会丢失相对重要的节点,在处理量大的文献数据时更为便捷。
→MST(MinimumSpanning Tree)(最小树)
这一算法运算简捷,但并非生成唯一解,更适于处理量小的文献数据(万以内)。
其次,我们可以根据时段来选择不同剪枝策略:
→Pruningslice network
这是针对每一时间段的网络进行剪枝的,可以反复选择,分析更为细致,网络图谱更为清晰准确。
→Pruningthe merged networks
这是针对针对整体网络图谱进行剪枝的,操作较为便捷高效,但细节处理的效果不如Pruningslice network。
NO.5 功能选择
1. 合作(主要包括作者、机构、国家)
2. 共现(主要包括特征词、关键词、来源、领域)
3. 共引(主要包括文献、作者、期刊)
4. 耦合(主要包括文献、基金)
NO.6 可视化图谱生成
1. 图谱类型
→聚类图谱
聚类图谱侧重于不同研究领域形成的知识聚类、聚类之间的联系及其随时间的演变特征。包括“默认图谱”与“自动聚类标签图谱”两种。
→时间线图谱
时间线图谱侧重于勾画聚类之间的关系和某个聚类中文献的历史跨度。
→时区图谱
时区图谱侧重于各研究主题随时间的演变、更新趋势和相互影响。
2. 图谱效果
关于图谱效果,我们需要关注图谱的轮廓值、密度、剪影值以及模块化值。
NO.7 聚类标签提取
1. 聚类标签来源
主要来源包括特定聚类的标题、特定聚类的关键词以及特定聚类的摘要。
2. 聚类标签形式
一般情况下我们选择“NounPhrases(名词短语)”形式。
3. 算法
主要包括“TF*IDF加权算法”、“对数似然率算法”以及“交互信息算法”。
NO.8 图谱调整
我们可以通过“Display”选项调整图谱的呈现模式。
1. 背景颜色的调整
→BlackBackground
→WhiteBackground
→ColormapPalate
2. 节点的调整
→NodeRendering Type
→NodeShape
→NodeSize
→NodeFill Color
→NodeOutline color
3. 标签的调整
→LabelAligment
→LabelColor
→LabelFont Size
→LabelPosition
4. 连线的调整
→LineShape
→DashedLines
→SolidLines
5. 聚类的调整
→ClusterLabel(聚类标签)
→ClusterID(聚类ID)
→ConvexHull(聚类区)
→Circle(聚类圈)
NO.9 图谱解读
1. 针对不同类型的图谱,我们解读的方式也有所不同:
→聚类图谱
节点及连线的颜色及厚薄程度表示文献数据在不同时间段内出现(或被引用)的频次:
连线表示文献数据之间的共现(共引)关系。
连线的粗细表示各数据节点之间的共现(共引)强度。
节点颜色表示文献数据第一次共现(共引)的时间。
节点或连线的颜色一般由冷色调(早期)趋向暖色调(近期)。
→时间线图谱
哪些年份该聚类开始出现。
哪些年份该聚类的热度升高,相关学术成果开始增多。
哪些年代该聚类的热度和关注度开始降低。
→时区图谱
通过各时间段节点的连线关系,我们可以看出不同时间段之间文献数据的传承关系。
2. 特殊点
我们需要关注一些特殊节点的显著特征。
首先需要关注节点的“中介中心性(centrality)”,即一个节点担任其他两个节点之间最短路桥梁的次数,这是测度节点在网络中重要性的指标之一。出现紫圈的节点的中介中心性>=0.1,这些节点是我们关注的重点。
其次,我们也需要关注一些具有高频性的节点。具有“高频性”的节点实际上代表着高被引文献,是某个领域或多个领域的重要知识基础,需要我们将其作为整个网络图谱分析的重要参照。具有强中介中心性和高频性的节点实际上就可以视为该时期研究的热点主题。
再者,突现性(burstdetection),即某一时段内引用量有较大变化的情况。我们需要关注这些变化幅度大的时段,思考其中重要节点的影响及作用。
最后,我们还需要关注图谱Sigma值以及特殊点间连线的具体特征。
NO.10 结果分析与撰写
在解读过图谱后,我们需要通过专家调查法等方法来反复检验CiteSpace得到的结果是否与实际情况一致,以保证学术的严谨性、科学性和客观性。
04
注意事项
NO.1 文件格式要规范
如软件系统中所提示,“inputfilenames must start with'download'”,输入文献数据时必须将文件名改成特定格式,并注意区分字母的大小写。
NO.2 具备进一步操作的空间
CiteSpace可以将可视化图谱中的节点和连线储存为“.net”格式的文件,从而可以进一步利用Pajek或UNCINET进行知识网络的绘制。
NO.3 注意图谱的清晰度和美观度
根据数据分析与运算得到相应的网络图谱后,我们不要直接截图,这样的图片清晰度低,不适合放在学术论文中,且不美观。我们要将图片下载、保存在电脑上,并可借助Gephi等其他软件将其进一步美化,并与论文文本结合起来。
参考文献:
[1] 邱均平,王曰芬.文献计量内容分析法[M].国家图书馆出版社,2008.
[2] 李杰,陈超美.CiteSpace: 科技文本挖掘及可视化[M].首都经济贸易大学出版社,2016.
[3] 陈悦,陈超美.引文空间分析原理与应用[M].科学出版社,2020.
END
转自:科研岛
转自:“投必得学术”微信公众号
如有侵权,请联系本站删除!