问匹配2个文本文档的最佳方法
EN

Stack Overflow用户

提问于 2015-01-06 15:48:16

回答 1查看 1.3K关注 0票数 0

我试着制作这样一个软件，使两个文本文档智能地类似于检查文本匹配的程度，而不像DIFF，我在Google上搜索了一个相当多的东西，我发现了两个东西，就是Graph&TF下手。

但我对这两种方法感到困惑，我不知道哪一种更好&还有其他技术来匹配文本文档吗？

tf-idf

textmatching

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-02-19 05:54:12

你看过用余弦距离测量文档相似性的方法吗？余弦相似性是一个内积空间的两个向量之间相似性的度量，它度量了它们之间夹角的余弦( similarity )。

如果您有文档A和B，您可以为文档A和B创建两个术语向量。术语向量A将包含来自文档A的单词和文档的每个单词频率。而不是原始的词频率，你可以你TF-以色列国防军加权。同样也适用于B。一旦你有了术语向量A和B，你就可以计算术语向量A和B的余弦相似度，它们代表了A和B。在创建术语向量之前，你需要做一些预处理任务，比如过滤停止词。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/27802170

复制

相似问题

问匹配2个文本文档的最佳方法
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问匹配2个文本文档的最佳方法EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问匹配2个文本文档的最佳方法
EN