俄亥俄州立大学最近开源了QUEST-35B,用32块H100和8000条合成数据,在Qwen基础上练出了一个能叫板顶级闭源系统的深度搜索智能体。这件事的核心不在于它有多大,而在于它验证了“小模型+强化学习(RL)”在特定任务上实现以小博大的可行性。
深度调研(Deep Research)本质上不是单纯的问答,而是长程的、带反馈的决策链:搜索、筛选、验证、再搜索。QUEST的逻辑是先用SFT(监督微调)给模型“打样”,让它学会搜索的套路,再通过RL(强化学习)优化决策路径。那8000个样本之所以值钱,是因为它们不是简单的对话,而是包含多步搜索、验证和约束满足的复杂任务轨迹。
但要清醒看到,开源与闭源的差距不在智商,而在“工程鲁棒性”。闭源系统砸钱做的网页渲染、反爬代理、多源矛盾处理,是模型权重解决不了的硬骨头。QUEST这类学术项目更像是一个精密的实验室原型,它教会了模型一套漂亮的“搜索体操”,但在面对互联网真实的断头路和垃圾信息时,容错率依然是短板。
如果你需要一个跑在本地、成本极低且任务边界清晰的研究助手,QUEST是目前开源界的顶流。
https://github.com/OSU-NLP-Group/QUEST
#人工智能##AI创造营##开源模型##DeepResearch#