## 核心要点

国内主流开源大模型普遍采用BBPE或SentencePiece作为分词算法。词表大小从6万到15万不等，特殊token设计差异明显，中文压缩率也各有不同。部分模型采用15万+词表获得较好的中文压缩率，一些模型通过特殊掩码机制实现独特的生成式预训练，还有模型在中等词表上兼顾中英双语。

---

## 一、分词器技术基础

### 1.1 主流分词算法对比

| 算法 | 核心机制 | 代表模型 | 优点 | 缺点 |
|------|----------|----------|------|------|
| BPE | 字符级起始，合并高频字符对 | GPT-2、早期LLaMA | 简单易实现 | 低频词拆分过细、中文支持弱 |
| BBPE | 字节级起始（256字节基础词表），合并字节对 | Qwen、DeepSeek | 统一编码、无OOV、多语言友好 | 中文UTF-8需3字节/字 |
| WordPiece | 基于语言模型概率合并 | BERT | 语义贴合度高 | 计算复杂、多语种支持弱 |
| SentencePiece | 将空格作为特殊字符，支持BPE/Unigram | ChatGLM、Yi、InternLM | 无需预分词 | 词表较大、显存占用高 |

### 1.2 评估分词器的关键指标

1. **压缩率**：每token平均表示的字符数，中文通常在1.5-1.8字符/token为较好水平
2. **词表大小**：影响Embedding层参数量和训练效率，主流在10万-15万之间
3. **OOV率**：BBPE理论上为0%
4. **特殊token设计**：BOS/EOS/PAD、对话角色标记、思维链等
5. **数字编码策略**：single-digit（单数字拆分）还是三位数编码，直接影响数学推理能力

---

## 二、各模型分词器详解

### 2.1 某开源系列（BBPE代表）

#### 技术规格

该系列采用BBPE算法，词表规模约15万，是国产模型中词表较大的代表。

| 参数 | 小模型（0.5B-3B） | 7B Base | 7B Instruct/14B+ | 多模态版本 |
|------|-------------------|---------|------------------|------------|
| 词表大小 | 151,936 | 151,936 | 152,064 | 151,936-152,064 |
| 基础算法 | BBPE | BBPE | BBPE | BBPE |
| 实现库 | tiktoken | tiktoken | tiktoken | tiktoken |
| 中文压缩率 | 1.5-1.8 字符/token | 1.5-1.8 字符/token | 1.5-1.8 字符/token | 1.5-1.8 字符/token |
| 数字处理 | single-digit拆分 | single-digit拆分 | single-digit拆分 | single-digit拆分 |

说明：小模型和7B Base使用151,936；7B Instruct及更大模型使用152,064。这种差异源于GPU计算优化考虑（152064可被256整除，151936可被128整除）。

#### 特殊Token设计

Qwen的特殊token覆盖对话系统和多模态功能：

| Token ID | Token内容 | 功能说明 |
|----------|-----------|----------|
| 151643 | `<|endoftext|>` | EOS + PAD |
| 151644 | `<|im_start|>` | 对话消息开始 |
| 151645 | `<|im_end|>` | 对话消息结束 |
| 151646-151656 | 视觉相关token | 多模态支持（对象引用、边界框、图像/视频填充） |

#### Chat Template（ChatML格式）

```
<|im_start|>system
{系统提示}<|im_end|>
<|im_start|>user
{用户输入}<|im_end|>
<|im_start|>assistant
{AI回复}<|im_end|>
```

设计上用`<|im_start|>`和`<|im_end|>`标记消息边界，角色信息（system/user/assistant）作为文本内容，而非独立token。支持多轮对话连续拼接。

#### 数字编码策略

Qwen采用single-digit拆分策略：

| 原始数字 | Token序列 |
|----------|-----------|
| "123" | ["1", "2", "3"] |
| "2025" | ["2", "0", "2", "5"] |
| "3.14159" | ["3", ".", "1", "4", "1", "5", "9"] |

这种策略避免数字OOV问题，提升数学推理的泛化能力。

#### 中文压缩率对比

| 模型 | 词表大小 | 中文压缩率（字符/token） |
|------|----------|------------------------|
| Qwen2.5 | 151,936 / 152,064 | 1.5-1.8 |
| ChatGLM3 | 65,024 | ~1.43 |
| Baichuan2 | 125,696 | ~1.49 |
| Yi-1.5 | 64,000 | ~1.36 |
| InternLM2 | 103,168 | ~1.42 |
| LLaMA3 | 128,256 | 英文3.94，中文无公开数据 |

Qwen的大词表包含大量中文字符和常用词组。相比LLaMA2（词表32000），中文token数大幅减少。

---

### 2.2 另一开源系列（MoE架构代表）

#### 技术规格

该系列同样采用BBPE，词表规模约10-13万，在MoE架构模型中具有代表性。

| 参数 | V2版本 | V3版本 | 推理优化版本 |
|------|--------|--------|--------------|
| 词表大小 | 102,400 | 129,280 | 沿用主模型词表 |
| 基础算法 | BBPE | BBPE | BBPE |
| 实现类 | LlamaTokenizerFast | LlamaTokenizerFast | LlamaTokenizerFast |
| 数字处理 | single-digit拆分 | single-digit拆分 | single-digit拆分 |

#### 特殊Token设计

**DeepSeek-V2/V3原生token**：

| Token ID | Token内容 | 功能说明 |
|----------|-----------|----------|
| 100000 | `<｜begin▁of▁sentence｜>` | BOS |
| 100001 | `<｜end▁of▁sentence｜>` | EOS |
| 100002 | `<｜User｜>` | 用户角色标记 |
| 100003 | `<｜Assistant｜>` | 助手角色标记 |
| 100004-100010 | 工具调用相关 | 工具调用开始/结束/分隔 |

**DeepSeek-R1**：基于Qwen2.5分词器，引入思维链标记，但在实际推理中`思考`和`完成`更多是作为提示词使用，而非独立token。

#### Chat Template

```
<｜begin▁of▁sentence｜>{系统提示}<｜User｜>{用户输入}<｜Assistant｜>思考
{推理过程}完成
{最终回答}<｜end▁of▁sentence｜>
```

设计使用全角字符`｜`和特殊空格`▁`（U+2581）避免与常规文本冲突。

---

### 2.3 GLM架构系列（SentencePiece代表）

#### 技术规格

该系列采用SentencePiece BPE，以独特的掩码机制著称，是国产模型中技术路线较独特的代表。

| 参数 | 早期版本 | 中期版本 | 最新版本 |
|------|----------|----------|----------|
| 词表大小 | 130,528 | 65,024 | 151,552 |
| 基础算法 | SentencePiece BPE | SentencePiece BPE | SentencePiece BPE |
| 特殊机制 | gMASK/sMASK | gMASK/sMASK | gMASK/sMASK |

#### gMASK与sMASK机制

ChatGLM的分词器与GLM架构深度耦合：

| 掩码类型 | 掩码范围 | 典型用途 |
|----------|----------|----------|
| `<|gMASK|>` | 整段文本（全局） | 对话生成、长文本生成 |
| `<|sMASK|>` | 局部片段（句子级） | 文本补全、句子续写 |
| `<|pMASK|>` | 单个token | 理解任务、分类任务 |

GLM的思路是：给定上文，通过掩码控制模型预测哪些位置。

Decoder-Only模型（Qwen/DeepSeek）从左到右自回归生成。GLM通过gMASK标记控制生成起点，支持更灵活的生成模式。

#### 特殊Token设计

ChatGLM3的特殊token（具体ID可能因版本略有差异）：

| Token内容 | 功能说明 |
|-----------|----------|
| `<|endoftext|>` | EOS/PAD |
| `<|gMASK|>` | 全局掩码，生成式预训练起点 |
| `<|sMASK|>` | 句子级掩码 |
| `<|sop|>` | Sentence Start |
| `<|eop|>` | Sentence End |

---

### 2.4 中等词表系列（平衡型代表）

#### 技术规格

该系列在词表大小上取中庸之道，兼顾中英双语处理效率。

| 参数 | 初代 | 二代 |
|------|------|------|
| 词表大小 | 64,000 | 125,696 |
| 基础算法 | SentencePiece BPE | SentencePiece BPE |
| 中文压缩率 | ~0.74 | ~1.49 |
| 数字处理 | single-digit拆分 | single-digit拆分 |

#### 训练优化

Baichuan2利用SentencePiece中BPE方法构建Tokenizer，从64000扩张到125696。数字拆分成单独数字以提升数学推理一致性，词表额外添加空token处理代码缩进。

```python
"123" → ["1", "2", "3"]
"hello world" → ["hello", "▁world"]
"    " → ["▁▁▁▁"]
```

---

### 2.5 另一中等词表系列

#### 技术规格

该系列同样采用约6万词表，使用ChatML格式的对话模板。

| 参数 | 早期版本 | 1.5版本 |
|------|----------|---------|
| 词表大小 | 64,000 | 64,000 |
| 基础算法 | SentencePiece BPE | SentencePiece BPE |
| 中文压缩率 | ~1.36 | ~1.36 |
| 数字处理 | single-digit拆分 | single-digit拆分 |

---

### 2.6 学术机构开源系列

#### 技术规格

该系列由学术机构开源，词表规模约10万，包含较多中文特有token。

| 参数 | 2.0版本 | 2.5版本 |
|------|---------|---------|
| 词表大小 | 103,168 | 103,168 |
| 基础算法 | SentencePiece BPE | SentencePiece BPE |
| 中文压缩率 | ~1.42 | ~1.42 |

词表包含约2万中文特有token。

#### 特殊Token设计

| Token ID | Token内容 | 功能说明 |
|----------|-----------|----------|
| 0 | `<unk>` | 未知token |
| 1 | `<s>` | BOS |
| 2 | `</s>` | EOS（同时作为PAD） |

---

## 三、核心维度对比

### 3.1 词表大小与压缩率对比

| 模型 | 词表大小 | 中文压缩率 | 实现库 | 算法 |
|------|----------|------------|--------|------|
| Qwen2.5 | 151,936 / 152,064 | 1.5-1.8 | tiktoken | BBPE |
| DeepSeek-V3 | 129,280 | ~1.5 | LlamaTokenizerFast | BBPE |
| GLM-4 | 151,552 | ~1.45 | SentencePiece | BPE |
| Baichuan2 | 125,696 | ~1.49 | SentencePiece | BPE |
| InternLM2 | 103,168 | ~1.42 | SentencePiece | BPE |
| Yi-1.5 | 64,000 | ~1.36 | SentencePiece | BPE |
| ChatGLM3 | 65,024 | ~1.43 | SentencePiece | BPE |

几点观察：词表越大，中文压缩率通常越高。BBPE（Qwen、DeepSeek）在多语言场景下更有优势。Baichuan2在压缩率和词表大小之间取得了不错的平衡。

### 3.2 特殊Token功能对比

| 模型 | BOS | EOS | 角色标记 | 思维链 | 工具调用 |
|------|-----|-----|----------|--------|----------|
| Qwen2.5 | `<|im_start|>` | `<|im_end|>` | 文本格式 | - | 支持 |
| DeepSeek-R1 | `<｜begin▁of▁sentence｜>` | `<｜end▁of▁sentence｜>` | `<｜User｜>`等 | 提示词格式 | 支持 |
| ChatGLM4 | `<|sop|>` | `<|eop|>` | `<|user|>`等 | - | 支持 |
| Baichuan2 | `<s>` | `</s>` | 文本格式 | - | - |
| Yi-1.5 | `<|im_start|>` | `<|im_end|>` | 文本格式 | - | - |
| InternLM2 | `<s>` | `</s>` | 文本格式 | - | - |

最近的趋势是引入思维链标记（DeepSeek-R1），角色标记也趋向标准化。

### 3.3 数字编码策略对比

| 模型 | 数字编码策略 | 典型token序列 |
|------|--------------|---------------|
| Qwen2.5 | single-digit | "123" → ["1","2","3"] |
| DeepSeek-V3 | single-digit | "123" → ["1","2","3"] |
| ChatGLM4 | 未明确 | "123" → 可能整体或拆分 |
| Baichuan2 | single-digit | "123" → ["1","2","3"] |
| Yi-1.5 | single-digit | "123" → ["1","2","3"] |
| LLaMA3 | 三位数编码 | "123" → ["123"]，长数字可能退化 |

single-digit策略避免数字OOV，对数值比较类任务有帮助。LLaMA3的三位数编码在短数字上高效，但处理长数字时可能遇到问题。

---

## 四、实现细节

### 4.1 BBPE实现机制

BBPE的核心是统一编码所有Unicode字符。

流程：

```
文本 → UTF-8字节序列 → 字节对合并 → Token ID序列
```

中文"你好"的BBPE分词过程：

```
1. 文本："你好"
2. UTF-8字节：0xE4 0xBD 0xA0 0xE5 0xA5 0xBD（6字节）
3. BPE合并：
   - 0xE4 + 0xBD → 0xE4BD（新token）
   - 0xE4BD + 0xA0 → 0xE4BDA0（"你"）
   - 0xE5 + 0xA5 → 0xE5A5（新token）
   - 0x5BD + 0xBD → 0xE5A5BD（"好"）
4. 最终token：["你", "好"]（2个token）
```

### 4.2 SentencePiece训练参数

```python
import sentencepiece as spm

spm.SentencePieceTrainer.train(
    '--input=corpus.txt '
    '--model_prefix=tokenizer '
    '--vocab_size=65024 '
    '--model_type=bpe '
    '--character_coverage=0.9999 '
    '--max_sentencepiece_length=32 '
    '--split_digits=true '
    '--byte_fallback=true '
    '--allow_whitespace_only_pieces=true'
)
```

关键参数：

| 参数 | 作用 | 推荐值 |
|------|------|--------|
| `vocab_size` | 词表大小 | 10万-15万 |
| `character_coverage` | 字符覆盖率 | 0.9999 |
| `max_sentencepiece_length` | 最大token长度 | 32 |
| `split_digits` | 数字拆分 | true |
| `byte_fallback` | 字节回退 | true |

---

## 五、工程实践建议

### 5.1 词表大小的权衡

词表增大意味着更高的压缩率，但也带来Embedding层变大、训练变慢的问题。实际选择需要根据场景权衡。

**工程经验**：

1. 词表大小设置为128或256的倍数有利于GPU优化
   - Qwen2.5（0.5B-3B/7B Base）：151936（可被128整除）
   - Qwen2.5（7B Instruct/14B+）：152064（可被256整除）
   - DeepSeek-V3：129280（已是128倍数）

2. Embedding层占比估算：词表15万 × 隐藏维度3584 ≈ 5.4亿参数，约占7B模型总参数的8%

### 5.2 分词器选择建议

| 任务类型 | 推荐分词器特性 | 原因 |
|----------|----------------|------|
| 数学推理 | single-digit拆分 | 避免数值歧义 |
| 代码生成 | 空格保留、FIM标记 | 保留缩进结构 |
| 长文档理解 | 高压缩率 | 支持更长上下文 |
| 多语言翻译 | BBPE、大词表 | 统一编码 |
| 工具调用 | 专用tool标记 | 明确标记边界 |

### 5.3 微调与部署建议

微调模型时尽量复用原模型分词器。如需扩展词表，使用`add_tokens` + `resize_token_embeddings`，确保`vocab_size`与`len(tokenizer)`一致。

部署时使用`use_fast=True`启用Rust加速版本，缓存分词结果减少重复计算，注意`chat_template`的版本兼容性。

---

## 六、发展趋势

1. 词表持续扩大：从早期6万到当前主流10万+
2. BBPE成为主流：统一编码优势明显
3. 特殊token功能化：从BOS/EOS扩展到思维链、工具调用
4. 数字编码标准化：single-digit策略逐渐普及

一些值得关注的方向：Meta的LCM尝试不做分词直接处理字节，VTP则在探索视觉和语言用同一套token空间。

分词器决定了模型「看到」什么、怎么理解输入。理解分词器的原理，有助于理解模型在不同任务上的表现差异。

国内主流开源大模型普遍采用BBPE或SentencePiece作为分词算法。词表大小从6万到15万不等，特殊token设计差异明显，中文压缩率也各有不同。部分模型采用15万+词表获得较好的中文压缩率，一些模型通过特殊掩码机制实现独特的生成式预训练，还有模型在中等词表上兼顾中英双语。

国内大模型分词器技术解析：从原理到实践

国内主流开源大模型（Qwen、DeepSeek、ChatGLM、Baichuan、Yi、InternLM等）普遍采用BBPE或SentencePiece作为分词算法。词表大小从6万到15万不等，特殊token设计差异明显，中文压缩率各有千秋。Qwen以15万+词表和较好的中文压缩率著称，DeepSeek-V3用12.9万词表，ChatGLM通过gMASK实现独特的生成式预训练，Baichuan和Y

目标全链路工程师的全栈

人工智能

以下是对大模型分词器技术现状的总结分析，按核心维度结构化呈现：

一、架构流派对比
1. BBPE系（Qwen/DeepSeek）
- 词表规模：15万+
- 核心优势：UTF-8字节级编码实现多语言统一处理
- 典型特征：
  • 中文压缩率1.5-1.8字符/token
  • 强制数字拆分（single-digit）
  • 对话模板采用ChatML格式

2. SentencePiece系（GLM/Baichuan）
- 词表规模：6.5万-13万
- 核心创新：gMASK掩码机制
  - gMASK：全局生成控制
  - sMASK：局部片段生成
  - pMASK：单token预测

4核4G3M云服务器 新用户低至38元/年！

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

以下是对大模型分词器技术现状的总结分析，按核心维度结构化呈现：

一、架构流派对比
1. BBPE系（Qwen/DeepSeek）
- 词表规模：15万+
- 核心优势：UTF-8字节级编码实现多语言统一处理
- 典型特征：
  • 中文压缩率1.5-1.8字符/token
  • 强制数字拆分（single-digi...

国内大模型分词器技术解析：从原理到实践-腾讯云开发者社区-腾讯云

国内大模型分词器技术解析：从原理到实践

国内大模型分词器技术解析：从原理到实践

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐