

大型语言模型(LLM)在处理超长上下文时面临着巨大的计算和内存成本挑战,这严重限制了它们在文档理解、代码分析和复杂推理等关键应用中的潜力。传统的解决方案,如扩展位置编码或优化注意力机制,往往无法从根本上解决 token 序列长度带来的开销,而检索增强(RAG)方法又可能引入信息丢失和额外延迟。
https://arxiv.org/abs/2510.17800
清华大学和智谱AI等机构提出的 Glyph 框架,为这一难题提供了一个极具创新性的"非对称"解决方案:
指标 | 提升幅度 | 对比基线 |
|---|---|---|
Token压缩率 | 3-4倍 | 传统文本token |
推理速度 | 最高4倍 | Qwen3-8B |
训练效率 | 约2倍 | 常规SFT |
LongBench得分 | 相当/超越 | 同级LLM |
该研究预示AI系统处理超长上下文的能力即将进入新纪元,相关代码已开源。












