【新智元导读】RAG正重塑大模型的江湖,成为新的「智能引擎」。
最近,AI界被推理模型刷屏了。
国内各家的推理模型,在新年到来之际不断刷新我们的认知。不过,当我们在实际应用中考量大模型,衡量好不好用的标准,就绝不仅仅局限于其性能和规模了。
尤其是对于那些请求复杂、专业性强,以及一些小众的长尾需求,此时单纯的大模型并不是最优解。而大模型和搜索的联合优化,就成了提升系统实际效能的关键,尤其是在中文互联网、企业服务、政务医疗等场景中。
在未来,AI系统将绝不仅仅是单纯的大模型,而是推理模型与搜索的深度结合而成的多元复杂系统。
所以,在当今的国产大模型选手中,谁在实际搜索中的表现最优,能为用户提供最精准的个性化服务呢?
接下来,让我们呈上各种足够难度、足够刁钻的问题,让它们开展一场实测大pk!
国产大模型,谁最懂我?
首先,对于大模型来说最为基础一个要求——理解用户到底想问什么。
在这个问题上,模型A首先解释了什么是「频域图」——通常是指幅度谱或功率谱,以及题干中提到的三个重要参数的含义。
随后解释道:「相位涉及到信号中不同频率成分之间的时间延迟或超前关系,这种关系在二维的幅度谱图中难以直接表示。」
回答正确。
模型B虽然讲了傅里叶变换的原理、频域图的常规表示方法,以及相位信息的重要性,但没有解答用户的核心诉求——为什么频域图上没有相位。
回答错误。
模型C从相位信息的复杂性、幅度信息的直观性等方面进行分析之后,得出结论「由于其复杂性和计算误差,以及频域图的简化需求,相位信息通常不会在频域图中直接展示」。
回答正确。
上下滑动查看
其次,同样也是对模型最为基础的要求之一——答案给的对不对。
在这道题中,模型不仅要找到对应的新政策,而且还需要理解其中的内容并根据用户的需求进行推理。
可以看到,模型A先是列出了政策中的规定,并在一番计算之后,给出正确的时间——2025年10月。
甚至还贴心地给出了一些注意事项。
相比之下,模型B的推断过程含糊不清,并且也没有给出正确的答案。
模型C的过程清晰,回答正确。
再来一个更具时效性的考验。
模型A既答对了作品名称和播出时间,也对剧情进行了介绍。
模型B的回答还停留在2023年,时效性差了一些。
模型C给出了正确的作品和时间,但没有加入相关介绍,内容丰富度稍弱。
除了一些简单的查询之外,我们在实际应用中,往往会遇到更多涉及现实细节的问题。
这时候我们所期待的,就不止是粗略的呈现,而是模型在提供基础答案的前提下,能具备更有价值的增益信息。
模型A在一番检索之后发现AirPods 4有两个版本,于是分别计算出了对应的总价。
相比之下, 模型B则只给出了标准版的价格。
而模型C,甚至给出了前后矛盾的答案——开篇说同时购买是「比较困难」的,文末又改口说是「没有问题」的。
对于这个问题,模型A在参考了搜索到信息后,给出了相应的几大网站,还一一附上了网站地址。
上下滑动查看
相比之下,模型B和C并没有给出网站的链接。
此时,如果用户想要了解更具体的信息,就不得不自己手动复制到浏览器里,再去搜索一遍才行。
生活中,我们还会提出各种各样的开放性问题,比如iPhone 16和iPhone 15买哪个更划算。
在面对推荐、对比、评价、观点这类问题时,对AI提出了比较高的要求。
首先,它需要给出一个确定性的答复,必须要客观公正,不能一碗水端不平。
然后,还需要给出详细的解释以及进一步的说明。
这里,模型A首先做了一个观点性总结——比赛结果颇具戏剧性。
然后,它分别就张弛重返赛场的融资过程和比赛结果,给出了详细的分解介绍。
上下滑动查看
再来看模型D,在比赛结果回复中,缺少了事实性回答,没有给出具体的成绩。
此外,第4点面对外界质疑的内容,也不属于融资的关键过程。
对于这个问题,模型A直接把结论前置,观点鲜明,态度明确。
上下滑动查看
继续测试模型B和C。
没想到,这两位都是「端水大师」,要么表示「难以评判」;要么是分析了出部分结果,但不敢给出最终结论。
模型D甚至连分析都不想分析,直接上「答案」——两者在各自领域的努力共同推动了大模型生态系统的繁荣与发展。
从测试中不难看出,模型A在事实性、时效性、丰富性、专业性和结构化上,表现都最为出色。
猜猜它是谁?
接下来,我们就来揭晓答案——文心一言4.0 Turbo。
上面这些场景所考验的,就是模型在RAG(Retrieval-Augmented Generation)检索增强生成方面的能力。
换句话说就是,模型能不能将检索和生成有效地结合起来——先用搜索技术实时获取外部知识,再通过大模型来生成高质量内容,从而弥补两者的短板。
RAG这个概念,最早在2020年的一篇划时代论文中首次提出,它巧妙地融合了LLM和信息检索的能力。
论文地址:https://arxiv.org/pdf/2005.11401
当需要生成文本、回答问题时,它会先从海量文档中精准检索相关信息,继而利用这些信息指导文本生成,显著提升了输出的质量和准确性。
其中,检索是方法,生成才是目的。
通过这一方法,能够极大地缓解大模型「幻觉」,让垂直细分场景的知识得到及时更新。
最重要的是,用户还可以轻松追溯信息来源,能够解决在回答中缺乏透明度的问题。
由此,检索质量的优劣在很大程度上影响了,生成模型最终生成结果的优劣。
「撒手锏」:检索增强技术
道理是这个道理,但想要将大模型和检索高质量地结合起来,可不简单。
一个重要原因在于,人类易读的搜索结果内容,并不适合给大模型。
因此,在RAG场景下,就需要寻找一种架构解决方案,能同时高效支持搜索业务场景和大模型生成场景。
具体来说,一方面我们希望能够利用百度检索排序的优质策略,保证数据的高相关、高时效和多样性,为大模型提供完整的全文结构化内容。
另一方面,又希望用更低的检索成本、更高的时延要求给大模型的内容精细化组织预留足够的空间。
这种「既要又要」的需求,该怎样满足呢?
当然这一切的前提是文心大模型本身就具备了很强的检索增强能力,这在文心一言最早推出的时候就成为其特色。
两年时间过去了,检索增强的价值,从百度最早推出到现在已经成为业界共识。百度搜索增强技术深度融合大模型能力和搜索系统,构建了「理解-检索-生成」的协同优化技术。
简单来说,「理解」就是拆解知识点,充分理解用户的需求;「检索」就是找到最合适的信息,然后进行搜索排序优化,并将搜索返回的异构信息统一表示,再送给大模型;「生成」阶段会综合不同来源的信息做出判断,并基于大模型逻辑推理能力,解决信息冲突等问题,最后生成准确率高、时效性好的答案。
可以说,百度的检索增强技术提升了大模型技术及应用的效果。
RAG不仅是技术,更是智能进化的里程碑
2024百度世界大会上,李彦宏曾表示,RAG已从百度特色逐渐成为了行业共识。
过去两年,我们见证了RAG,为整个大模型领域带去翻天覆地的变化。
RAG让LLM真正走向了实际场景落地。
而在RAG打开模型应用阶段,同样面临着诸多挑战,比如需要构建测积集、评估结果准确性、上下文理解等问题。
在这些方面,百度的技术优势与积累不得不说,凸现出来了。首先,在数据方面,过去二十余年,百度的搜索业务已覆盖了海量中文数据,成为其在中文语言处理领域不可替代的优势。
以文心一言为例,其训练数据包括了万亿级网页数据、数十亿搜索数据、图片数据,百亿级语音日均调用数据,以及5500亿事实知识图谱。
不仅如此,百度的知识库犹如一个不断进化的有机体。每秒钟,来自专业互联网和专业数据库的实时信息都能被智能整合,确保了数据的时效性和准确性。
此外,作为产品矩阵遍布各行业的头部公司,它还为不同行业提供深度定制的智能解决方案。每一个垂直赛道,都成为精准渗透的战略高地。凭借独特技术积累和生态优势,他们正通过RAG去构建连接技术与场景的桥梁。
不得不说,在AI原生搜索的时代,谁能更准确、更智能检索和生成知识,谁就掌握了智能的制高点。
RAG不仅是技术,更是智能进化的里程碑。