决定论文生死的查重平台们,原来是这么判断重复的

澎湃新闻记者 邹熳云 王亚赛
2021-06-05 19:15
来源:澎湃新闻

2019年的翟天临论文造假事件,让高校纷纷开始重视论文重复率。时至今日,他的微博底下依然绕不过这个话题。

“搞个抽奖吧,帮付查重费。”

网友Epochigo_在5月24日留下的这条评论,已经获得了超过两万五千个赞。

毕竟对于准毕业生来说,论文查重不仅是对学业的要求,还是对生活费的威胁。

目前大多数高校的官方查重平台是中国知网。矛盾的是,知网并不开放个人检测名额,许多学校也不会提供一到两次的免费查重机会。因此不少同学都得在定稿前,凭借自己找的渠道,进行轮番几次的查重和修改。

这些非官方渠道,如果是家喻户晓的老品牌,价格不一定便宜。

而如果是在淘宝上盲找店家,就可能得担着些风险。

挂着“知网官方”旗号的渠道,要么买到的是假货,要么可能是通过非法手段弄来的免费名额。据《新京报》报道,有些在校学生知网账号被盗后,发现自己的免费查重机会已被不明论文占用。

不明的第三方渠道,还会有转卖论文的风险。澎湃号“真数”曾在文章中披露,一位同学怀疑自己的论文被查重网站出售,被他人买去作为本科论文提交,以致自己的论文在学校倒查毕业论文质量时,被发现查重率高达90%。

查重平台结果不一,知网分数偏低

哪怕这些坑都避开了,准毕业生们还会遇到一大天问:为什么每个平台的查重结果都不一样?下图所示,六家查重平台对翟天临硕士论文的查重结果,最大差距可以达到62个百分点。

因此,许多往届毕业生会留下“Paper系比知网要严格”的印象。

这个印象或许是对的。

在知乎“PaperYY查重软件靠谱吗?”这个问题下,133名网友分享了自己的论文在中国知网和PaperYY的查重结果。可以看出,知网查出来的重复比重,大多情况下确实偏低。

但也有例外。

网友勿忘写道,她舍友的论文,在PaperYY查出来的复制比重是4%,结果知网查出60%。对比两份查重报告后,这位同学得出了一个结论:知网比PaperYY多了一个“大学生论文联合对比库”,而舍友恰巧采用了一个学姐论文的结构,内容也有复制,因此知网计算出的复制比重才会如此之高。

各平台区别:论文对比库和查重方法

这位网友的结论,很可能是正确的。

论文比对库的范围是影响因素之一。比如,PaperPass免费版的重复比例经常偏高,学术不端网认为,这是因为PaperPass主要依赖网络资源库,在网络上任何一句话都可能找到相似的句子,“最简单的就像百度搜索一样,每搜索一句话都会有一系列相关的内容出现”。

而知网则会更注重和学术论文的比对。下图中,以知网包含的对比库类型作为参照,可以看出,会被采纳为官方查重的三家平台,比“Paper系”会更接近知网的配置。

每个平台的查重规则也不一样,但“由于没有官方声明,所有的算法模型都是网传”,坚果云官方号在知乎问题“万方论文查重怎么样 和知网对比”下写道。

坚果云进一步解释道:知网的查重算法有两个要点,首先,引用的文献得占到段落的5%及以上;满足这个条件后,如果一个句子里出现了连续13个字的重复,那么这句话就会被标红,即判定为抄袭。万方的判定标准则相对简单,如果一个句子中连续10个字与库中文章重复,这个句子就会标红。

这条判定规则的区别,基本上是各类查重平台分析的共识。

此外,知乎论文类大V吴志根在自己的专栏《论文查重降重攻略:学术论文重复问题剖析》还补充了一点。基于他的观察,知网还采用了“语义模糊算法”,即比起逐字逐句,这套算法更关注句子的中心意思和关键词。换句话说,同一段文字,如果只是换一套表述方式,那也是会被知网判定为重复的。

这些额外的查重规则,可能正是知网会显得更“智能”的原因。准毕业生们只能通过其他平台的反馈,摸索着,一次又一次修正,去不断地预测和逼近知网的结果。

    责任编辑:吕妍
    校对:刘威