投稿问答最小化  关闭

万维书刊APP下载

论文查重系统的技术局限有哪些?

2024/5/16 17:59:20  阅读:40 发布者:

论文查重系统虽然能快速比对目标论文与已发表文献中的重复内容,但查重系统受到系统设计、技术实现等因素的限制,在查准率、查全率方面存在系统缺陷,不能准确判别重复内容在学术上的关系。

1)查重系统通常融合多种语义相似度算法来检测目标论文是否存在重复,采用这种相似度算法尽管有利于检测文字表达形式不同但语义相同的内容,但是也会造成误检,导致查全率不是百分之百。

2)相似度算法的阈值设置过低可能会造成误判,如表达含义完全不同的对比文字存在多个相同词语或语义相近词语时,会因相似度过高而被判为重复。

3)图表、公式等类似具有特定文字结构和表达形式的内容,即使内容不同 也会被误判为重复。

4)预处理过程中,如果目标论文的组成部分识别不准确,可能会导致作者单位、参考文献等内容被误判为重复内容。

5)查重系统的主要功能是检测剽窃行为,对于剽窃行为的界定,其比对的对象应当是整个人类知识。尽管查重系统开发公司掌握了海量的文献数据,但是受版权、数据获取技术和收纳时滞等因素的限制,查重系统的文献数据库中的数据,相对于整个人类知识而言毕竟是少数。

6)查重系统对未收录的外文著作和小语 种期刊等、没有及时收录的文献以及图像和音视频等 非文本内容,都不能进行有效对比 。

7)在相似度计算时,语义相同的改写因相似度不高而被判为不重复;

8)对研究思路、方法等较为抽象的内容,查重系统也不能进行有效检测;

9)相同内容的图表、公式等非文本数据转化为文字时,往往不能被准确识别 。

从技术原理上看,查重系统是通过比对文本的某些特征或规律实现的,但查重结果不能自动判断目标论文中的重复内容与已有文献在学术上的关系,因此它就不能从科学规范、作者学术动机以及内容重复造成的后果危害上作出作者学术行为的判定,这是查重系统在技术上的本质局限。

转自checkvvip查重微信公众号,仅作学习交流,如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com