Overview of a LLM-powered autonomous agent system:
Agent学会调用外部应用程序接口,以获取模型权重中缺失的额外信息(预训练后通常难以更改),包括当前信息、代码执行能力、专有信息源访问权限等。
Not a research seminar but good to know...
一些Datasets:
一些Eval(NoTool/Retrieval-based/Action-based)
一些框架/产品/Demo:
优秀的工作很多,只是不完整的列举一部分
Agent 需要和现实世界的信息进行收集和交互。其核心本质严重依赖于LLM自身的Instruction Following, Complex Reasoning, Long Term Planning能力。
满足普惠的 Agent 应当满足的要求:
1.能执行繁琐、繁重的任务(太轻松的任务不需要agent)。
2.能给出可靠、充实、无害的结果(错误率容忍度较低)。
3.易学易用,不需要使用说明(zero shot,不依赖于用户的prompt水平)
4.链路完整,使用场景不需要经常跳出(不能破碎)。
5.可以与外部工具和功能的交互,在没有人为干预的情况下完成多步骤的工作流程。
6.会学习与自我纠正,越用越聪明。
智能体名词被滥用 Over promise,Under deliver:
简单易用,符合普惠对AI的想象即使名字里不带Agent,也可以是一个好产品。
打造agent技术中,大模型并非处于最顶层,它上面还需要有针对agent的业务逻辑,称为SOP。只有SOP才能保证涉及多个步骤的agent的可靠性。SOP会生成指导大模型工作的计划planner。
RAG能增强模型context,在推理过程中增加辅助生成答案的材料(RAG),使答案更加准确、充实、贴合场景。这种素材通常通过检索实现(广义讲是一些信息agent),应满足:
综上,为能打造agent,需要以大模型为中心,以数据结构化RAG为支撑(尤其是精确的结构化数据),SOP为顶层抽象一个平台。
远不只一个 LLM + 搜索 API。平时搜集信息时,每人都有自己的习惯和一些相似点:
他能不能做到速度快?
他的知识深度与准确性,是否能够代替搜索引擎?
海量的优质知识文本(新闻,论文...)
分钟级索引更新,sub秒级查询相应
有效的把context控制在16k内
尽量接近大众对于AGI的想象,而不是尝试向用户解释幻觉/不擅长数学等。这听起来似乎是个 搜索推荐问题的Pro Max版本!
于是,架构又变成:
Default:直接用 Yi 模型回答,不带RAG
知识RAG:通用知识/专业知识,百科/学术研究类数据,
新闻时事RAG:国内,国际,时政,财经,娱乐,体育,民生。并提供reference。
搜索引擎RAG:从搜索引擎获取摘要内容和网页内容,并提供reference。
Code/Math:CoT/PoT + Code Interpreter.
PPT模式:创作PPT大纲,….
得到大致架构(简易示意):
Q:大模型拥有很强的能力理解用户的意图。
这点对GPT-4成立;对其他大模型,较困难!
Q:检索内容不相关时,大模型生成的内容质量也不应该变差。
大模型能分辨出内容是否相关的能力也是一个需要重点训练的能力。没有针对增强的LLM遇到不相关的检索内容,RAG结果会显著变差。
Q:高质量内容多,就能做好RAG。
内容质量不仅要高,要多,还得是用户需求的新鲜、准确、完整的内容。
Q:有了RAG就能消灭生成幻觉。
RAG确实能消除一部分幻觉,更重要的是让模型了解到它没有学过的内容,从而把无法回答的问题变得能够回答,而不是能够回答的问题回答变得更好。
通过小模型实现一个复杂的意图路由,结果将非常不准确。拆解出的用户意图通过不同技术路线实现,最后汇总成统一的聊天体验,也存在巨大挑战。
通过prompt调整通用大模型,让它能适应RAG的任务。无论生成内容的格式、内容相关性、篇幅都存在着巨大的不确定性,效果相当不稳定。
试图通过post-train对模型已有的能力进行增强,很不容易。
试图从0到1造一个搜索,直接满足RAG的需求,门槛非常高,光是索引有价值的内容一点就很难做。
结果要准,响应要快,成本要低 ->需要一个新鲜、完整的索引。但Google>Bing>自建库。
单个的信息点检索已经有不错的效果。但是回答综合性问题(比如胖猫事件始末),需要整理多方面的信息,并形成回答草稿,以供RAG回答好综合性问题。
利用多模态理解,对于目标文档生成完整的文字描述,理解PPT中的概念和关系。如果仅对PPT进行OCR来提取文本信息,可能丢失大量的上下文和视觉信息,导致检索结果不够准确或者缺乏深度。能够将文本和视觉信息结合起来,构建更加完整的内容表示。识别PPT之间的逻辑关系和内容流程,有助于构建知识图谱或上下文模型。
利用多模态生成,能够有效的规避版权侵权,召回图片不准,风格不统一。生成的内容与PPT的设计和布局相匹配,保持视觉一致性。
有了大的context,就不用在检索相关性、摘要的精简准确方面做工作了。❌
1M 的context length技术上并不难达到,但需要:
所以长文本能力的提升,和RAG技术并不冲突,甚至可以互相促进。重要的是RAG提供什么内容能提升 LLM 的结果,而不是因为上下文长度不足,才不得已用RAG来截断筛选长文本信息。实验证明,不是提供的上下文越多,回答越好。更多的上下文中一定会有被遗漏的信息。所以怎样从中找到更重要的信息,压缩提供给LLM的prompt的长度,永远是值得被研究的技术,无论上下文窗口有多大。
通用搜索引擎为了保证能搜到一切,不得不容忍很多长尾的低效信息,同时在用户的特定场景中,Google并不知道场景信息。如若LLM主要针对学生或科研人员的场景中,搜索Transformer时,专用搜索引擎给出的都是学术科研相关的transformer算法或Huggingface的transformer库。但google给出的更可能是普通人更加熟悉的变形金刚相关/变压器的信息(这个例子只是示意通用搜索和专用搜索的差别,不是在讨论哪个结果是更加正确的)。
真实的搜索引擎:搜索->打开链接->发现不是想要的内容->返回到搜索页面->打开新的链接->..->修改query重新搜索->.
理想的知识搜索:“我询问一个问题终于可以直接告诉我答案了。”既提供,将"google搜索+查看对应的网页内容+判断内容与问题的相关程度+自动修正query检索词”的工作打包合并后的信息。
难点:诸如幻觉、不准确、信息没有实时性等等问题,交互体验提升了,但真实使用体验依然没有办法跟有长期积累的传统搜索引擎想媲美。
知识搜索相比传统搜索的技术提升:
RAG需要SFT配合。传统LLM的SFT都是没有RAG信息的情况下,与人类进行校准。当模型可以获得RAG提供的信息后,如何更好的利用RAG的信息回答用户的问题,是需要进一步SFT的。包括RAG的流程中也还有很多需要利用LLM能力的地方,这些地方都是需要通过SFT将模型能力调整到更专业的程度,才能获得更好的效果。
但针对RAG和意图识别等进行针对性的调优,会损伤型的原有能力。
避免 cherry-pick,而是退一步优化整个大类别,否则容易按下葫芦起了瓢。
Vector-Search只是在简单的本地化的RAG应用中(如针对特定文档的问答),能更便捷提供RAG能力,从而成为当下较火热的技术。Vector-Search只是一种先进的文本相似度算法,但相比一套完整搜索引擎,计算相关性仅是其中的一个子问题,甚至很多时候都不是最关键问题。
搜索引擎的完整架构至少包括:索引(索引结构、全量更新、增量更新)、QP(query理解、意图判别/类目判别、query改写)、召回、粗排、精排(rank model,静态质量分)、打散(相似的内容不需要重复出)等等。而Vector-Search只为搜索引擎的架构中提供了精排中的文本相关性信息,是不足以撑起整个引擎架构的。早期的Google搜索,对结果影响更为重要的是PageRank,这个其实就是个静态质量分。一个引擎哪怕只利用关键词召回+PageRank,其结果也往往远好于Vector-Search。
Yi-Large 模型能力优秀。100B+的稠密模型,成本较低。Yi-Large 在国际公认的榜单上取得第一梯队的良好成绩。
模型的训练/服务/推理设计,与底层 Infra 架构和模型结构必须高度适配
多方面优化后,实现先进的 FP8 训练框架,模型训练成本同比降幅达一倍之多
自研性能/召回率最佳的向量数据库笛卡尔Descartes*,成本只需第三方18%
零一万物与 Google、Inflection Al一起入选24年3月 NVIDIA GTC 大会 FP8 最新成功案例;
自研全导航图向量数据库,权威榜单评测 6项第一。
去年在海外验证 TC-PMF,以真实用户体验,和模型迭代形成正循环
多模态理解与生成,结合真实场景,解锁2C应用的创新
单一产品上线9月,用户近干万,收入1亿,ROI接近1
使用量较大的2C类AI应用聚集在欧美Saas profitability
多模态 Vision 模型:结合LLM的读文档“截图提问”创新
基于 Scaling Law,大模型能力快速增长,超过任何技术
大模型训练和推理的成本持续大幅下降(GPT价格年内多次下调)
需要顶级模型推理能力,才能实践最佳 Al-First 应用
但有些应用会先爆发,同时要考虑推理成本和商业模式的平衡
持续演进的技术所创造的商用价值和推理成本均是“移动目标”
与其坐等风来,不如成为造风者。需建立基建到应用的良性 ROI
闭源探索商业化及 AI-First + 开源赋能生态
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。