中文分词 - 标签 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

首页标签中文分词

#中文分词

是使用计算机自动对中文文本进行词语的切分

无监督训练在自然语言处理中的价值

用户11764306 2026-03-232026-03-23 18:20:39

自然语言处理应用的第一步通常是分词，即将输入字符串分割成语义相关的单元。在许多应用中，这些单元比单个单词更小。例如，与查询“文字处理”高度匹配的搜索结果可能使用...

16410

探索自然语言处理(NLP)的旅程：从分词到文本生成

1x1n 2026-01-202026-01-20 13:28:44

自然语言处理（Natural Language Processing, NLP）作为人工智能领域的核心分支，致力于让计算机理解、解释和生成人类的自然语言，它已深...

87310

赫蹏(hètí):为中文网页内容赋予优雅排版的开源利器

修己xj 2026-01-022026-01-02 23:48:03

在当今信息爆炸的时代，内容呈现的形式往往决定了阅读体验的优劣。对于中文网站来说，一个长期存在的挑战是如何实现符合传统中文排版美学的网页展示。尽管现代CSS技术已...

59511

PostgreSQL pg_trgm中文模糊匹配优化技巧

井九 2025-10-312025-10-31 08:36:59

pg_trgm 是为**字母语言（如英语）**设计的，基于「连续 3 个字符」划分。但中文属于「无空格、无词界」的语言，因此直接使用时存在问题：

79310

Elasticsearch（ES）分词器（Analyzer）

运维小路 2025-08-112025-08-11 10:28:03

我们上个小节介绍倒排索引，里面有一个比较核心的概念就是系统能正常识别里面的单词，比如上个小节里面涉及到的几个单词：apple banana cherry dat...

2.1K10

Postgresql中的检索:中文分词及语义检索

程序员架构进阶 2025-06-232025-06-23 14:57:39

在上一篇文章中提到，在postgresql中，使用pgvector可以实现向量存储和检索，使用pg_trgm基于三元组文本模糊匹配和相似度计算，结合GI...

1.4K00

猫头虎分享：Python库 snownlp的简介、安装、用法详解入门案例教程

猫头虎 2025-06-012025-06-01 15:05:00

大家好，我是猫头虎，猫头虎技术团队创始人，也被大家称为猫哥。我目前是COC北京城市开发者社区主理人、COC西安城市开发者社区主理人，以及云原生开发者社区主理人...

1.1K10

科研人狂喜！不用再到处找文献，这个神器让你轻松获取全网外文文献

伪科研 2025-04-242025-04-24 09:26:09

写论文时，你是否也有过这样的困扰？SCI - Hub？Library Genesis？几个数据库反复横跳，还是找不到想要的文献。想查最新的外文研究成果，却不知道...

1K30

中文分词代码(此代码为作者多年经验总结，以前发表过VB，PB版本)

jack.yang 2025-04-052025-04-05 11:11:42

/* * created by yzh 2004.5.12 * 请大家引用时保留这段作者声明，此代码为开源代码；使用不受限制。 * 中文分词代码 *此代...

27200

中文分词代码(此代码为作者多年经验总结，以前发表过VB，PB版本)

jack.yang 2025-04-052025-04-05 11:11:42

/* * created by yzh 2004.5.12 * 请大家引用时保留这段作者声明，此代码为开源代码；使用不受限制。 * 中文分词代码 *此代...

27200

用Rust实现的PHP中文分词动态库 Jieba

Tinywan 2025-02-202025-02-20 10:32:30

43010

Java 结合中文分词库 jieba 统计一堆文本中各个词语的出现次数【代码记录】

訾博ZiBo 2025-01-062025-01-06 19:44:14

59000

使用 docker 部署 elasticsearch 并安装 ik 中文分词器

jgrass 2024-12-252024-12-25 17:54:26

这是一篇本地 docker 部署笔记，基本上是参考以下文章。记录一些实际操作中遇到的问题。

2.3K10

利用Python爬取百度百科词条并生成词云图

LucianaiB 2024-12-252024-12-25 09:58:44

在这个信息爆炸的时代，数据可视化成为了一种有效的信息传递方式。词云图以其独特的视觉冲击力和简洁的信息表达方式，成为数据可视化中的一种流行形式。本文将介绍如何使用...

68610

【NLP自然语言处理】文本处理的基本方法

小言从不摸鱼 2024-09-102024-09-10 20:03:39

jieba是一个流行的中文分词工具，它能够将一段中文文本切分成有意义的词语。jieba是目前Python中最常用的中文分词库之一，具有简单易用、高效准确的特点。

86810

【自然语言处理】统计中文分词技术（一）：1、分词与频度统计

Qomolangma 2024-07-302024-07-30 12:40:25

本质上是字符串匹配的方法，将一串文本中的文字片段和已有的词典进行匹配，如果匹配到，则此文字片段就作为一个分词结果。 1）正向最大匹配法（从左到右的方向）；...

1.5K10

【自然语言处理】统计中文分词技术（一）：1、分词与频度统计

Qomolangma 2024-07-302024-07-30 12:40:25

1.5K10

Elasticsearch分词

XiaoA 2024-07-222024-07-22 13:53:00

Elasticsearch搜索中比较重要的就是分词了，通过分词将内容拆分成不同的关键词，然后通过关键词的匹配度来打分排序选择结果，Elasticsearch默认...

63810

AI大数据统计《庆余年2》中的小人物有哪些？

AIGC部落 2024-06-242024-06-24 19:33:19

筛选出出现次数大于10的人名，用matplotlib绘制一个水平柱状图：x轴为人名，y轴为人名出现次数；

39710

#中文分词

无监督训练在自然语言处理中的价值

探索自然语言处理(NLP)的旅程：从分词到文本生成

赫蹏(hètí):为中文网页内容赋予优雅排版的开源利器

PostgreSQL pg_trgm中文模糊匹配优化技巧

Elasticsearch（ES）分词器（Analyzer）

Postgresql中的检索:中文分词及语义检索

猫头虎分享：Python库 snownlp的简介、安装、用法详解入门案例教程

科研人狂喜！不用再到处找文献，这个神器让你轻松获取全网外文文献

中文分词代码(此代码为作者多年经验总结，以前发表过VB，PB版本)

中文分词代码(此代码为作者多年经验总结，以前发表过VB，PB版本)

用Rust实现的PHP中文分词动态库 Jieba

Java 结合中文分词库 jieba 统计一堆文本中各个词语的出现次数【代码记录】

使用 docker 部署 elasticsearch 并安装 ik 中文分词器

利用Python爬取百度百科词条并生成词云图

【NLP自然语言处理】文本处理的基本方法

【自然语言处理】统计中文分词技术（一）：1、分词与频度统计

【自然语言处理】统计中文分词技术（一）：1、分词与频度统计

Elasticsearch分词

AI大数据统计《庆余年2》中的小人物有哪些？

热门专栏

Technology Share

胖胖的专栏

AI科技大本营的专栏

杨熹的专栏

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐