我试着制作这样一个软件,使两个文本文档智能地类似于检查文本匹配的程度,而不像DIFF,我在Google上搜索了一个相当多的东西,我发现了两个东西,就是Graph&TF下手。
但我对这两种方法感到困惑,我不知道哪一种更好&还有其他技术来匹配文本文档吗?
发布于 2015-02-19 05:54:12
你看过用余弦距离测量文档相似性的方法吗?余弦相似性是一个内积空间的两个向量之间相似性的度量,它度量了它们之间夹角的余弦( similarity )。
如果您有文档A和B,您可以为文档A和B创建两个术语向量。术语向量A将包含来自文档A的单词和文档的每个单词频率。而不是原始的词频率,你可以你TF-以色列国防军加权。同样也适用于B。一旦你有了术语向量A和B,你就可以计算术语向量A和B的余弦相似度,它们代表了A和B。在创建术语向量之前,你需要做一些预处理任务,比如过滤停止词。
https://stackoverflow.com/questions/27802170
复制相似问题