因此,我正在寻找一个比较文本内容的算法,我发现这个名为Copyscape的站点拥有一个非常方便的工具,用于比较文章(链接)。在检测两个文本文档之间的相似性值(百分比)方面,它似乎做得很好。我想知道他们在那个工具中使用了哪种算法,或者类似的算法?提前谢谢。
发布于 2017-06-15 04:28:03
我不知道copyscape剽窃是如何运作的。但如果你让我实现一个。
我会从-定义‘剽窃’开始?内容-1和内容-2几乎是相似的。让我们说,>80%是相同的。即内容-1是采取20%是改变生产内容-2。
现在,让我们尝试解决:将内容-1转换为内容-2的成本(no.of更改)是什么?这是DP(dynamic )中一个众所周知的问题,称为Levenshtein距离或编辑距离问题。标准问题是关于字符串距离的,但是您可以很容易地将它修改为单词而不是字符。此外,您可能需要跟踪所有更改@ line #,word在这两个内容上的位置。
现在,上述问题将为您提供最小的no.of更改,以便将的内容-1转换为内容-2。使用内容-1的总长度,我们可以很容易地计算出从内容-1到内容-2的更改的百分比。如果它低于一个固定的门槛(例如20%),然后宣布剽窃。此外,使用line#上的辅助信息,word在这两个内容上的位置-您可以显示所做的更改。
https://stackoverflow.com/questions/44560346
复制相似问题