投稿选刊也能靠AI了,我不允许你不知道!
2022/4/6 14:43:53 阅读:307 发布者:chichi77
我们知道,发表文章,选对杂志很重要,研究者、编辑及审稿人在确定研究结果和出版目标之间的一致性时都需要考虑,稿件的内容是否符合期刊的既定方向?也就是说,是否符合期刊的“目标和范围”,今天我们通过一篇发表于国际科学计量学杂志“Scientometrics”的大数据模型的文章解释这种大数据平台是如何根据文章具体信息选择匹配的杂志。
如图所示,本文通过纳入 2010 年至 2019 年在 20 个顶级期刊上发表的16,803 篇文章的摘要,并构建机器学习方法,形成文本分类算法,并通过监督模型将已发表的内容(摘要)与期刊简介匹配,发现准确率高达 80%。
图1. 模型构建流程
1.使用机器学习的监督学习工具
本文通过使用监督学习算法来创建预测模型,学习算法旨在于发现和建模目标特征(预测特征,即期刊)与其他特征(即单词及其频率)之间的关系,通过词嵌入的方法将词映射成实数向量。通过将单词转换为嵌入,可以以数字形式对单词的语义重要性进行建模,从而对其执行数学运算,最终会得出一个预测的值,因此我们可以使用已发表的文本来预测它们发表在哪些期刊上。
2.构建模型
2.1 纳入样本:作者纳入了2010 年至 2019 年在 20 个顶级期刊上发表的16,803 篇文章的摘要作为样本;
2.2 将摘要被转换为数字特征向量:为了更好地匹配术语之间的概念,此步骤删除了单词前缀和后缀,例如简单复数和现在或过去时形式,留下词干形式,以保证文本分类准确的情况下降低计算复杂度并提高算法性能;图2中的“小提琴”图 显示了每个期刊摘要的主数据分布。小提琴的长度代表摘要中不同词干的数量(小提琴越长,词干越独特),宽度代表词干出现的频率。小提琴的较大部分显示出现频率更高的词干。
图2. 每个期刊的词干分布
2.3 特征提取和预处理,简介的准备和使用:为了对期刊简介部分进行分类,并进行预处理(标记化、小写、停用词删除和词干提取),并通过文本聚类比较和查找语义上更相似的简介和摘要;如表1所示,根据被分析的文本材料(摘要或摘要),找到四个可以比较的集群,且大多数期刊都被分配到相同的集群。此步骤可保证模型的终点与纳入样本的向量处在同一识别层面。
表1. 期刊简介和摘要的聚类
2.4 开发匹配模型的算法,并评估算法:作者通过使用 boosting 或 bagging 技术组合多个学习模型的算法,而分类数据集被分成两个集合,70% 的观察用于构建模型,30% 用于测试模型的准确性,通过计算,模型在3354 个案例中正确分类了2700个案例,因此,模型的总体准确率为 80%。
2.5 进行预测:作者使用开发的模型,预测期刊简介是否可对应于一组已发表的文章以检查期刊的自我描述在语义上是否与当前选择发表的文章相对应。如图3所示,对于 25% 的期刊,他们的文章也可以在其他地方发表,比如说,期刊A是综合期刊,而期刊B是对应领域的专业期刊,这也告诉我们,在我们投稿时,可以有综合期刊和专业期刊的不用选择。
图3. 根据已发表的摘要和期刊简介进行的模型分类
综上所述,本文通过匹配文章摘要和期刊简介进行模型计算分析,并通过文本数据的计算机辅助分析构建了模型算法,而这种算法可帮助我们更好的选择目标期刊。
因此,我们在投稿之前需要注意:
1. 在投稿时,比对目标期刊简介和投稿文章的匹配度;
2. 通过一些成熟的投稿期刊助手,输入文章题目摘要,获得匹配的期刊。
如有侵权,请联系本站删除!