查重是一个匹配的过程,是以句为单位,如果一句话重复了,就很容易判定重复了。以查重软件知网为例:中国知网CNKI学位论文检测系统TMLC/VIP,其运作模式是将论文电子版输入电子数据库,然后数据库会根据现有的所有存在的知网的或者网络上的电子数据进行匹配,软件检测到如果有13个相同的字,就认为是雷同。
论文查重的标准:
1.学术不端的各种行为中,文字复制是最为普遍和严重的,论文检测系统查重百分比只是描述检测文献中重合文字所占的比例大小程度,并不是指该文献的抄袭严重程度。只能这么说,百分比越大,重合字数越多,存在抄袭的可能性越大。是否属于抄袭及抄袭的严重程度需由专家审查后决定。有一个句子相似性的算法。并不是句子完全一样才判断为相同。句子有句子级的相似算法,段落有段落级的相似算法,计算一篇文献,一段话是否与其他文献文字相似,是在此基础上综合得出的。
2.论文查重检测系统不下结论,是不是抄袭最后还有人工审查这一关,所以,如果是您描述的这种情况,专家会有相应判断。我们的系统只是提供各种线索和依据,让人能够快速掌握检测文献的信息。比如像知网论文检测的条件是连续13个字相似或抄袭都会被红字标注,但是必须满足3里面的前提条件,即你所引用或抄袭的A文献文字总和在你的各个检测段落中要达到5%。