薛定喵君
国内大模型分词器技术解析:从原理到实践
原创
关注作者
腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
薛定喵君
社区首页
>
专栏
>
国内大模型分词器技术解析:从原理到实践
国内大模型分词器技术解析:从原理到实践
薛定喵君
关注
修改于 2026-04-15 22:37:05
修改于 2026-04-15 22:37:05
18
0
举报
概述
国内主流开源大模型(Qwen、DeepSeek、ChatGLM、Baichuan、Yi、InternLM等)普遍采用BBPE或SentencePiece作为分词算法。词表大小从6万到15万不等,特殊token设计差异明显,中文压缩率各有千秋。Qwen以15万+词表和较好的中文压缩率著称,DeepSeek-V3用12.9万词表,ChatGLM通过gMASK实现独特的生成式预训练,Baichuan和Y
文章被收录于专栏:
薛定喵君
薛定喵君
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系
cloudcommunity@tencent.com
删除。
python
人工智能
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系
cloudcommunity@tencent.com
删除。
python
人工智能
#分词器
评论
登录
后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档
0
0
0
推荐