首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >国内大模型分词器技术解析:从原理到实践

国内大模型分词器技术解析:从原理到实践

作者头像
薛定喵君
修改2026-04-15 22:37:05
修改2026-04-15 22:37:05
180
举报
概述
国内主流开源大模型(Qwen、DeepSeek、ChatGLM、Baichuan、Yi、InternLM等)普遍采用BBPE或SentencePiece作为分词算法。词表大小从6万到15万不等,特殊token设计差异明显,中文压缩率各有千秋。Qwen以15万+词表和较好的中文压缩率著称,DeepSeek-V3用12.9万词表,ChatGLM通过gMASK实现独特的生成式预训练,Baichuan和Y
文章被收录于专栏:薛定喵君薛定喵君

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档