首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >匹配2个文本文档的最佳方法

匹配2个文本文档的最佳方法
EN

Stack Overflow用户
提问于 2015-01-06 15:48:16
回答 1查看 1.3K关注 0票数 0

我试着制作这样一个软件,使两个文本文档智能地类似于检查文本匹配的程度,而不像DIFF,我在Google上搜索了一个相当多的东西,我发现了两个东西,就是Graph&TF下手。

但我对这两种方法感到困惑,我不知道哪一种更好&还有其他技术来匹配文本文档吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-02-19 05:54:12

你看过用余弦距离测量文档相似性的方法吗?余弦相似性是一个内积空间的两个向量之间相似性的度量,它度量了它们之间夹角的余弦( similarity )。

如果您有文档A和B,您可以为文档A和B创建两个术语向量。术语向量A将包含来自文档A的单词和文档的每个单词频率。而不是原始的词频率,你可以你TF-以色列国防军加权。同样也适用于B。一旦你有了术语向量A和B,你就可以计算术语向量A和B的余弦相似度,它们代表了A和B。在创建术语向量之前,你需要做一些预处理任务,比如过滤停止词。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/27802170

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档