首页
学习
活动
专区
圈层
工具
发布

Google发布TurboQuant压缩算法,或改变AI成本结构

快速阅读:Google Research 发布了 TurboQuant,一套极限压缩算法,能把 LLM 的 KV cache 压缩6倍以上,速度提升8倍,而模型精度几乎零损耗。它不依赖训练或微调,背后有严格的数学理论支撑。

大模型越做越大,但真正卡脖子的不是参数量,是内存。

每次推理时,模型都要维护一个叫 KV cache 的东西,相当于一张随时翻查的“答题小抄”。上下文越长,这张小抄越大,内存就越先撑不住。这是当前所有长文本任务的共同痛点。

Google Research 最新发布的 TurboQuant,直接针对这个卡点下手。

它的思路分两步走。第一步叫 PolarQuant,把向量从直角坐标转成极坐标,好比把“向东3步、向北4步”换成“沿37度角走5步”,这样就不需要每次重新校准边界,砍掉了传统方法必须携带的那部分冗余存储。第二步叫 QJL,只用1个 bit 来处理第一步压缩后残留的微小误差,把偏差消掉,同时做到零额外内存开销。

两步加起来,整个过程没有新引入的“存储税”。

测试结果很直接:TurboQuant 把 KV cache 压到3 bit,内存占用缩小6倍以上,在 H100 上计算注意力分数的速度提升最高8倍,而且在问答、代码生成、长文本摘要等标准 benchmark 上,精度几乎没有可见损耗。跟同类方法比,它甚至不需要针对特定数据集调参。

更重要的一点:这套算法在数学上是可以被证明的,运行接近理论下界,不是调出来的经验值。

除了 LLM,TurboQuant 对向量搜索也有直接影响。现代搜索引擎已经越来越依赖语义向量来理解用户意图,而不只是关键词匹配,这意味着数据库里要存数十亿个高维向量。压缩效率的每一点提升,都会直接反映在成本和响应速度上。

压缩做到极致之后,AI 的规模边界在哪里,还真不好说。

ref: research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OWjzv4v6HNUgRKqiSJhAsdQw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券