首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >RAG 真的已死?为什么大上下文窗口还不够(至少目前如此)

RAG 真的已死?为什么大上下文窗口还不够(至少目前如此)

作者头像
致Great
发布2025-04-17 13:06:50
发布2025-04-17 13:06:50
2220
举报
文章被收录于专栏:自然语言处理自然语言处理

OpenAI 最近发布的 GPT-4.1 震动了 AI 社区:惊人的 100 万 token 上下文窗口、精准度大幅提升,而 Gemini 2.5 在研究模式下甚至宣称支持高达 1000 万 token。作为一家 RAG 即服务创业公司的创始人,我的收件箱立刻被各种宣称 RAG 已死的消息塞满,建议我们在为时已晚之前赶紧转型。

但 RAG 真的已经死亡了吗?以下是为什么我们仍然坚定看好 RAG,尽管新型大上下文模型令人印象深刻。

无限上下文的幻觉

GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 最多可处理 100 万个上下文 token,而之前的 GPT-4o 模型最多可处理 12.8 万个。100 万个 token 相当于 8 个完整的 React 代码库,因此长上下文非常适合处理大型代码库或大量长文档。

GPT-4.1 能够可靠地处理 100 万 token 上下文长度的信息,并在注意相关文本和忽略长短上下文干扰项方面比 GPT-4o 更加可靠。长上下文理解是法律、编程、客户支持以及许多其他领域应用的关键能力。

大上下文模型看起来像是灵丹妙药。它们的宣传效果很诱人:

  • 毫不费力地处理海量数据
  • 简化的 API —— 不再需要复杂的索引和分块
  • 零遗漏结果(所有内容都在上下文中!)

但任何在实际场景中使用过超大上下文的人都知道,现实并非如此美好。

成本和速度:现实检验

考虑这个情况:一个典型的 RAG 查询大约是 1000 个 token,成本约 0.002 美元。将此扩展到完整的 100 万 token 上下文会使成本增加 1000 倍,达到每次查询约 2 美元。不仅仅是成本,速度也会受到严重影响。OpenAI 自己的演示显示,一个 45.6 万 token 的请求需要痛苦的 76 秒 —— 想象一下用户每次互动都要等待那么长时间。在规模化应用中,这些延迟是不可接受的。

代理工作流程会成倍增加痛苦

现代 AI 工作流程越来越多地利用代理方法 —— 多个链式 LLM 调用以达到最终结果。每一步都会增加成本和延迟。突然间,那个每次查询 2 美元的场景膨胀成了在财务和运营上对严肃应用来说不可行的方案。

引用:信任很重要

目前的大上下文模型无法有效处理引用。与 RAG 能够轻松引用源文本块不同,大上下文方法失去了关键的透明度。对于任何需要可验证性的应用 —— 法律、医疗、技术领域 —— RAG 仍然是不可替代的。

上下文仍有限制

当然,100 万 token 相当于约 20 本书,看起来很惊人。然而,这对于许多现实世界的企业来说还远远不够。我们与管理着数十亿 —— 是的,数十亿 —— token 的公司合作。即使是 1000 万 token 的上下文也远远不够。对于如此海量的数据,实用且可扩展的 token 经济学仍未解决。

结论

虽然未来可能会带来支持仅使用上下文窗口模型的突破,但现在需要实用的解决方案。目前,RAG 仍然是有意义、可扩展的 AI 应用的唯一可行选择。RAG 不仅没有消亡 —— 它正在茁壮成长。

所以,RAG 还没有死,它才刚刚开始。

后续有很多值得我们探究的技术方向,比如Deep Search,Deep Research以及Agentic RAG等

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-04-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 无限上下文的幻觉
  • 成本和速度:现实检验
  • 代理工作流程会成倍增加痛苦
  • 引用:信任很重要
  • 上下文仍有限制
  • 结论
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档