Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >中文文本相似度计算工具集

中文文本相似度计算工具集

作者头像
磐创AI
发布于 2018-04-24 10:23:03
发布于 2018-04-24 10:23:03
2.7K0
举报

作者 | fendouai

编辑 | 磐石

出品 | 磐创AI技术团队


【磐创AI导读】:前两篇文章中我们介绍了一些机器学习不错的项目合集和深度学习入门资源合集,本篇文章将对中文文本相似度计算工具做一次汇总。喜欢我们文章的小伙伴,欢迎大家点击上方蓝字关注我们的公众号:磐创AI。另外您对我们的文章有任何的意见或是文章中的不足之处,欢迎在文末留言。

一. 基本工具集

1. 分词工具

jieba

结巴中文分词

https://github.com/fxsjy/jieba

HanLP

自然语言处理 中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 新词发现 短语提取 自动摘要 文本分类 拼音简繁 http://hanlp.hankcs.com/

https://github.com/hankcs/HanLP

盘古分词-开源中文分词组件

盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTDictSeg 中文分词组件,拥有大量用户。 作者基于之前分词组件的开发经验,结合最新的开发技术重新编写了盘古分词组件。

https://archive.codeplex.com/

pullword

Pullword-永久免费的可自定义的中文在线分词API

http://pullword.com/

BosonNLP

玻森中文语义开放平台提供使用简单、功能强大、性能可靠的中文自然语言分析云服务。

https://bosonnlp.com/

HIT-SCIR/ltp

Language Technology Platformhttp://ltp.ai https://github.com/HIT-SCIR/ltp

2. 关键词提取

TF-IDF

技术原理:https://dl.acm.org/citation.cfm?id=866292

gensim

https://radimrehurek.com/gensim/models/tfidfmodel.html

TextRank

技术原理:https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf

TextRank4ZH-从中文文本中自动提取关键词和摘要

https://github.com/letiantian/TextRank4ZH

3. 词向量

word2vec-gensim

Topic modelling for humans - Radim Řehůřek

https://radimrehurek.com/gensim/index.html

GloVe

Global Vectors for Word Representation

https://nlp.stanford.edu/projects/glove/

4. 距离计算

word2vec-gensim

Topic modelling for humans - Radim Řehůřek

https://radimrehurek.com/gensim/index.html

二. 常用算法

1. 中文分词+TF-IDF+word2vec+cosine 距离计算

2. doc2vec

原理介绍:https://cs.stanford.edu/~quocle/paragraph_vector.pdf

技术实现:https://cs.stanford.edu/~quocle/paragraph_vector.pdf

3. simhash

原理介绍:http://www.cnblogs.com/maybe2030/p/5203186.html

技术实现:https://github.com/yanyiwu/simhash

三. 文本相似度计算综述

A Survey of Text Similarity Approaches

https://pdfs.semanticscholar.org/5b5c/a878c534aee3882a038ef9e82f46e102131b.pdf

《中文信息处理发展报告(2016)》

http://cips-upload.bj.bcebos.com/cips2016.pdf

以上论文下载地址:

http://www.tensorflownews.com/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-04-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 磐创AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Python中文分词工具大合集:安装、使用和测试
这篇文章事实上整合了之前文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考。
AINLP
2019/06/03
2.1K0
干货 | 陪伴我学习NLP、知识图谱的那些资源(教程+书籍+网站+工具+论文...可以说很全面了)
【人工智能头条导读】作者一年前整理了这份关于 NLP 与知识图谱的参考资源,涵盖内容与形式也是非常丰富,接下来人工智能头条还会继续努力,分享更多更好的新资源给大家,也期待能与大家多多交流,一起成长。
用户1737318
2018/08/03
2.9K0
干货 | 陪伴我学习NLP、知识图谱的那些资源(教程+书籍+网站+工具+论文...可以说很全面了)
《自然语言处理实战课程》---- 第一课:自然语言处理简介
大家好,今天开始和大家分享,我在自然语言处理(Natural Language Processing,NLP)的一些学习经验和心得体会。
流川疯
2019/04/17
2.5K0
《自然语言处理实战课程》---- 第一课:自然语言处理简介
自然语言处理实战入门第一课----自然语言处理简介
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wangyaninglm/article/details/88643645
流川疯
2019/04/09
1.1K0
自然语言处理实战入门第一课----自然语言处理简介
干货 | 史上最全中文分词工具整理
【磐创AI导读】:本文为中文分词工具整理分享。想要了解更多技术咨询,欢迎大家点击上方蓝字关注我们的公众号:磐创AI。
磐创AI
2018/08/20
2.8K0
干货 | 史上最全中文分词工具整理
中文分词工具在线PK新增:FoolNLTK、LTP、StanfordCoreNLP
继续中文分词在线PK之旅,上文《五款中文分词工具在线PK: Jieba, SnowNLP, PkuSeg, THULAC, HanLP》我们选择了5个中文分词开源工具,这次再追加3个,分别是FoolNLTK、哈工大LTP(pyltp, ltp的python封装)、斯坦福大学的CoreNLP(stanfordcorenlp is a Python wrapper for Stanford CoreNLP),现在可以在AINLP公众号测试一下:中文分词 我爱自然语言处理
AINLP
2019/06/03
1.7K0
从0到1,了解NLP中的文本相似度
本文将从预备知识的概念开始介绍,从距离名词,到文本分词,相似度算法。
netkiddy
2019/01/30
6.8K5
从0到1,了解NLP中的文本相似度
最准的中文文本相似度计算工具
text2vec, chinese text to vetor.(文本向量化表示工具,包括词向量化、句子向量化)
机器学习AI算法工程
2020/04/08
15K2
最准的中文文本相似度计算工具
《自然语言处理实战入门》 ---- 第4课 :中文分词原理及相关组件简介 之 汉语分词领域主要分词算法、组件、服务(上)...
《自然语言处理实战入门》 第4课 :中文分词原理及相关组件简介的 主要内容 有如下三个部分:
流川疯
2020/08/10
2.2K0
《自然语言处理实战入门》 ---- 第4课 :中文分词原理及相关组件简介 之 汉语分词领域主要分词算法、组件、服务(上)...
NLP+词法系列(一)︱中文分词技术小结、几大分词引擎的介绍与比较
版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/52275328
悟乙己
2019/05/26
1.5K0
NLP+词法系列(一)︱中文分词技术小结、几大分词引擎的介绍与比较
python文本相似度计算
步骤 分词、去停用词 词袋模型向量化文本 TF-IDF模型向量化文本 LSI模型向量化文本 计算相似度 理论知识 两篇中文文本,如何计算相似度?相似度是数学上的概念,自然语言肯定无法完成,所有要把文本转化为向量。两个向量计算相似度就很简单了,欧式距离、余弦相似度等等各种方法,只需要中学水平的数学知识。 那么如何将文本表示成向量呢? 词袋模型 最简单的表示方法是词袋模型。把一篇文本想象成一个个词构成的,所有词放入一个袋子里,没有先后顺序、没
机器学习AI算法工程
2018/03/14
1.7K0
python文本相似度计算
自然语言处理(NLP)相关
结巴分词使用 中文分词之结巴分词~~~附使用场景+demo(net) jieba分词、自定义词典提取高频词、词性标注及获取词的位置 jieba分词增加自定义词表 词性标注 [python] 使用Jieba工具中文分词及文本聚类概念 jieba分词词性标记含义 Toolkits 综合NLP工具包 THULAC 中文词法分析工具包 by 清华 (C++/Java/Python) NLPIR by 中科院 (Java) LTP 语言技术平台 by 哈工大 (C++) FudanNLP
致Great
2018/04/11
2.3K0
【分词】从why到how的中文分词详解,从算法原理到开源工具
分词(word tokenization),也叫切词,即通过某种方式将句子中的各个词语识别并分离开来,使得文本从“字序列”的表示升级为“词序列”表示。分词技术不仅仅适用于中文,对于英文、日文、韩文等语言也同样适用。
zenRRan
2020/02/27
1.4K0
Kaggle知识点:文本相似度计算方法
文本相似度是指衡量两个文本的相似程度,相似程度的评价有很多角度:单纯的字面相似度(例如:我和他 v.s. 我和她),语义的相似度(例如:爸爸 v.s. 父亲)和风格的相似度(例如:我喜欢你 v.s. 我好喜欢你耶)等等。
Coggle数据科学
2021/02/23
3K0
Kaggle知识点:文本相似度计算方法
中文分词常用方法简述
中文分词 就是将一句话分解成一个词一个词,英文中可以用空格来做,而中文需要用一些技术来处理。 三类分词算法: 1. 基于字符串匹配: 将汉字串与词典中的词进行匹配,如果在词典中找到某个字符串,则识别出一个词。 优点,速度快,都是O(n)时间复杂度,实现简单。 缺点,对歧义和未登录词处理不好。 此类型中常用的几种分词方法有: 1. 正向最大匹配法: 假设词典中最大词条所含的汉字个数为n个,取待处理字符串的前n个字作为匹配字段。若词典中含有该词,则匹配成功,分出该词,然后从被比较字符串的n+1处开始再取n个
杨熹
2018/04/03
2.3K0
文本相似度计算_文本相似度分析算法
一. Simhash 计算文档相似度的算法, 比如用在搜索引擎的爬虫系统中,收录重复的网页是毫无意义的,只会造成存储和计算资源的浪费。有时候我们需要处理类似的文档,比如新闻,很多不同新闻网的新闻内容十分相近,标题略有相似。如此问题,便可以应用Simhash 文档相似度算法,查看两篇文档相似程度,删去相似度高的web文档。
全栈程序员站长
2022/11/15
1.7K0
文本相似度计算_文本相似度分析算法
目前常用的自然语言处理开源项目/开发包大汇总
中文主要有:NLTK,FoolNLTK,HanLP(java版本),pyhanlp(python版本),Ansj,THULAC,结巴分词,FNLP,哈工大LTP,中科院ICTCLAS分词,GATE,SnowNLP,东北大学NiuTrans,NLPIR,;
IT小白龙
2018/11/26
3.2K0
目前常用的自然语言处理开源项目/开发包大汇总
python文本相似度计算
两篇中文文本,如何计算相似度?相似度是数学上的概念,自然语言肯定无法完成,所有要把文本转化为向量。两个向量计算相似度就很简单了,欧式距离、余弦相似度等等各种方法,只需要中学水平的数学知识。
周小董
2019/03/25
5.1K0
python文本相似度计算
python专业方向 | 文本相似度计算
步骤 1、分词、去停用词 2、词袋模型向量化文本 3、TF-IDF模型向量化文本 4、LSI模型向量化文本 5、计算相似度 理论知识 两篇中文文本,如何计算相似度?相似度是数学上的概念,自然语言肯定无法完成,所有要把文本转化为向量。两个向量计算相似度就很简单了,欧式距离、余弦相似度等等各种方法,只需要中学水平的数学知识。 那么如何将文本表示成向量呢? 词袋模型 最简单的表示方法是词袋模型。把一篇文本想象成一个个词构成的,所有词放入一个袋子里,没有先后顺序、没有语义。 例如: John likes to w
用户1332428
2018/03/09
2.3K0
python专业方向 | 文本相似度计算
如何识别“答非所问”?使用gensim进行文本相似度计算
在文本处理中,比如商品评论挖掘,有时需要了解每个评论分别和商品的描述之间的相似度,以此衡量评论的客观性。
机器学习AI算法工程
2019/10/28
2.1K0
推荐阅读
相关推荐
Python中文分词工具大合集:安装、使用和测试
更多 >
交个朋友
加入架构与运维学习入门群
系统架构设计入门 运维体系构建指南
加入架构与运维趋势交流群
技术趋势前瞻 架构演进方向
加入[架构及运维] 腾讯云技术交流站
云架构设计 云运维最佳实践
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档