Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >清华UCSD提出全新微调方法,8B小模型媲美GPT-4o!科学问题正确率提高28%

清华UCSD提出全新微调方法,8B小模型媲美GPT-4o!科学问题正确率提高28%

作者头像
新智元
发布于 2025-02-15 05:55:47
发布于 2025-02-15 05:55:47
1280
举报
文章被收录于专栏:新智元新智元

新智元报道

编辑:静音

【新智元导读】最近,一支来自UCSD和清华的研究团队提出了一种全新的微调方法。经过这种微调后,一个仅80亿参数的小模型,在科学问题上也能和GPT-4o一较高下!或许,单纯地卷AI计算能力并不是唯一的出路。

我们都知道,在科研界,LLM在解决简单科学问题时表现得游刃有余,但在应对复杂问题时往往会出现幻觉。于是,为了让模型更靠谱,研究人员尝试给模型装上科学工具,帮助它们解决高难度任务。

然而,一旦用上工具,模型就「上瘾」了!甚至连一些不怎么难的问题都要靠工具解决。这不仅让计算成本暴涨,还影响了模型自己「独立思考」的能力——就像有的人有了计算器就不再心算一样。

相较而言,人类科学专家在解决科学问题时,通常会先评估问题的复杂性,再决定使用基本推理或专业工具。

正是受这种解决问题流程的启发,一支来自UCSD和清华的研究团队提出了一种全新的微调方法,让模型「边适应边学习」,学会在使用外部科学工具和依赖内部知识之间做出合理选择。

论文地址:https://arxiv.org/abs/2411.00412

这一方法的显著意义在于它大大提高了模型效率。

研究人员仅使用一个拥有80亿参数的LLM——远小于行业巨头如GPT-4——便在测试数据集上实现了28.18%的答案准确率提升和13.89%的工具使用精度提高。

这挑战了AI开发中的一个惯有想法:更大的模型必然能带来更好的结果。

教会AI在使用外部工具和依赖内部知识之间进行判断——就像训练一位年轻科学家如何在相信自己计算的同时知道何时咨询专业设备——可能比单纯地卷AI计算能力更为重要。

微调方法简介

微调方法由两部分组成:World Knowledge Distillation(WKD)和Tool Usage Adaptation(TUA)。

World Knowledge Distillation可以翻译为「世界知识蒸馏」。在WKD过程中,LLM通过学习那些借助工具生成的解答,来掌握和积累特定领域的知识。

WKD分为监督微调和偏好优化两部分。

对于所有问题,研究人员提示LLM使用工具生成确定性的解答,然后将这些解答作为目标,进行监督微调(SFT)。

在遇到开放式问题时,除了进行监督微调外,LLM会生成一组不同的解答提议,并使用预定义的指标对这些提议进行排序,以构建偏好对;然后利用这些数据进行偏好优化。

而在Tool Usage Adaptation中,研究人员首先在基准数据集的问题上评估经过WKD微调后的LLM。对于每个问题,他们采样生成一组直接回答,以计算其准确率。

基于预设的准确率阈值,他们将问题分为两个子集:简单问题集,即LLM可以直接解决的问题;以及复杂问题集,即LLM需要借助工具回答的问题。

对于简单问题集,保持与WKD一致的对齐目标,即继续通过内化已有知识直接作答;而对于复杂问题集,研究人员将对齐目标切换为包含工具使用轨迹的增强解答,并训练LLM准确地遵循这些轨迹。

实验过程

研究人员使用Llama-3.1-8B-Instruct作为微调方案的基础模型。同时还对其他最先进的开源和闭源模型进行了广泛评估,包括GPT-4o、GPT-4o mini、Claude 3.5 Sonnet和Llama-3.1-70B-Instruct。

数据集

研究人员使用了两个现有的公开数据集MATH和SciBench,并构建了四个新的科学数据集用于实验:Mujoco、偏微分方程(PDEs)、气候科学和流行病学。

四个数据集的构建遵循系统化流程:首先,基于专家咨询和模拟器功能设计了特定领域的问题模板;接着,通过在科学合理的参数范围内进行采样,生成单独的问题;最后,利用LLMs和工具使用轨迹生成相应的解答。

Mujoco中主要涉及刚体和柔体动力学相关问题。

在偏微分方程(PDEs)中,研究人员设计了内部的数值求解器,并编制了关于热传递、化学工程、人口模拟等领域的问题。

气候科学问题数据集则以神经代理模型为中心。该模型接受时间、气候情景(如SSP126、SSP245)、温室气体排放(CO₂,CH₄)和气溶胶气体(BC,SO₂)等输入,输出相应的地表温度。

流行病学问题数据集使用了最先进的代理模型。模型输入包括每个加利福尼亚州县的28天多维特征以及24维的州级初始条件,用于描述流行病状态。模型输出未来28天的流行病状态预测。

四个自定义数据集主要由多项选择题构成,而其中的气候科学数据集还包含开放式问题(例如关于气候变化缓解的政策建议)。公开的MATH和SciBench数据集则完全由数值问题组成。

外部科学工具

研究人员为不同数据集使用了不同的工具。

对于Mujoco数据集,他们使用了官方API

对于PDEs数据集,他们利用了内部的数值求解器;

对于气候和流行病学数据集,他们使用了封装对应神经代理模型的API;

对于开放式数据集,他们采用了Python代码解释器

评估指标

实验主要评估了两种准确率:答案准确率和工具使用准确率。

答案准确率

答案准确率量化了模型提供的正确答案比例。

对于自定义数据集中的多项选择题(MCQs),研究人员根据模型是否选择正确选项来分配二进制分数。

对于MATH和SciBench数据集中的数值答案,如果答案在真实值的±5%的容差范围内,则视为正确答案。

工具使用准确率

工具使用准确率评估模型是否能在工具使用方面做出智能决策,即在回答较难问题时使用工具,而在回答较简单问题时直接作答。

问题根据训练模型是否可通过Pn(无工具使用)回答来划分为简单(E)或困难(H)。当使用允许工具选择的Pi时,决策进一步标记为T(使用工具)或N(不使用工具)。例如,HT表示模型在处理一个困难问题时选择使用工具。

工具使用准确率定义为:

实验结果

答案准确率

该微调方法在自定义数据集上的表现显著优于所有基准模型,这些数据集通常未在预训练中涵盖。

尽管在公开数据集上,微调过的模型并未超越当前的最先进模型,但相比于未微调的基础模型,该方法显示出显著的改进。这一在公开基准测试上的性能差距,可能是由于当前最先进模型具有更多的参数量,并对开源数据集进行了特定优化。

工具使用准确率

总体而言,训练模型在所有数据集上均实现了最佳的工具使用准确率,除了在SciBench数据集上排名第二。

相比之下,其他模型的准确率大约为50%,表明两种典型情况:要么过度依赖工具,要么从不尝试使用工具。

除了表中展示的优势外,研究人员还进一步分析了MATH数据集上的工具使用决策情况,该数据集在下图中根据问题难度提供了先验标签。

训练模型在问题难度增加时显示出合理的工具使用增长。基础模型则无论问题难度如何均表现出对工具的过度依赖;而Claude 3.5在面对简单和困难问题时均表现出更多的直接回答信心,可能是因为MATH是一个公开数据集,该模型在训练期间已接触到类似问题。

作者介绍

Bohan Lyu

Bohan Lyu目前在清华大学修读计算机科学与经济学双学位。

2023年,他加入清华NLP实验室,受刘知远教授的指导。

2024年夏天,他前往加州大学圣地亚哥分校(UCSD)的计算机科学与工程系Rose-STL实验室,导师是Rose Yu教授。本研究部分工作在他访问UCSD期间完成。

他的研究兴趣是设计创新的计算机科学方法,特别是专注于语言技术、知识发现和数据挖掘,以解决现实世界的挑战。

此前,他曾担任过ICLR 2024、ICML 2024和ACL 2024研讨会的审稿人。

Yadi Cao

Yadi Cao在加州大学圣地亚哥分校(UCSD)计算机科学与工程系担任博士后研究员,导师是Rose Yu教授。

此前,他在加州大学洛杉矶分校(UCLA)获得了计算机科学博士学位,导师是Chenfanfu Jiang教授和Demetri Terzopoulos教授。

他的博士研究主要集中在偏微分方程(PDE)的数值解和机器学习方法,特别是在计算固体和流体动力学方面。

参考资料:

https://venturebeat.com/ai/uc-san-diego-tsinghua-university-researchers-just-made-ai-way-better-at-knowing-when-to-ask-for-help/

https://arxiv.org/abs/2411.00412

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
GPT-4推理太离谱!大学数理化总分没过半,21类推理题全翻车,马库斯:AGI太遥远
来自MIT的校友Konstantine Arkoudas,在21种不同类型推理集中,对GPT-4进行了评估。
新智元
2023/09/09
4120
GPT-4推理太离谱!大学数理化总分没过半,21类推理题全翻车,马库斯:AGI太遥远
Chem. Sci. | 微调语言大模型,深挖化学数据矿
化学文献中蕴含着丰富信息,通过“化学文本挖掘技术”提取关键数据,从而构建庞大的数据库,不仅能够为实验化学家提供详尽的物理化学性质和合成路线指引,还能够为计算化学家提供丰富的数据和洞见用于模型构建和预测。然而,由于化学语言的复杂性和论文风格的多样性,从化学文献中提取结构化数据是一项极具挑战性的任务。因此,许多文本挖掘工具应运而生,旨在解决这一棘手难题,助力科学研究迈向新的高峰。然而,这些针对特定数据集和语法规则构建的文本提取模型往往缺乏灵活的迁移能力。近两年,以ChatGPT为代表的大语言模型(LLMs)风靡全球,引领了人工智能和自然语言处理领域的快速发展。能否利用通用大语言模型强大的文本理解和文字处理能力,从复杂化学文本中灵活准确地提取信息,解放数据标注工人的劳动力,加速领域数据的收集呢?
DrugAI
2024/06/18
3770
Chem. Sci. | 微调语言大模型,深挖化学数据矿
MIT发布加强版「高数」求解器:7门课程正确率达81%
---- 新智元报道   编辑:LRS 【新智元导读】MIT最近更新了他们的高等数学的求解器,通过程序合成的方式在七门大学数学课程中正确率达到了81%!而且还能对求解过程进行解释、绘图,还能生成新问题! 不光玩小学数学应用题,AI已经开始攻克高数了! 最近MIT的研究人员宣布他们基于OpenAI Codex预训练模型,在本科生级别的数学问题上通过few-shot learning成功达到81%的正确率! 论文链接:https://arxiv.org/abs/2112.15594 代码链接:https
新智元
2022/06/29
4970
MIT发布加强版「高数」求解器:7门课程正确率达81%
GPT-4被曝重大缺陷,35年前预言成真!所有LLM正确率都≈0,惹Karpathy马库斯惊呼
例如,当我们教会一个模型「乔治·华盛顿是美国第一任总统」后,它能否自动回答「谁是美国第一任总统?」
新智元
2023/09/24
3310
GPT-4被曝重大缺陷,35年前预言成真!所有LLM正确率都≈0,惹Karpathy马库斯惊呼
谷歌医疗大模型登Nature,Med-PaLM重磅揭秘!AI医生成绩比肩人类
论文地址:https://www.nature.com/articles/s41586-023-06291-2
新智元
2023/08/07
5910
谷歌医疗大模型登Nature,Med-PaLM重磅揭秘!AI医生成绩比肩人类
GPT-4也难逃“反转诅咒”!新研究发现:大模型存在推理缺陷,知道“A是B”推不出“B是A”
一个大语言模型在训练时被喂进了“A是B”这种形式的数据,它并不会自动反推出“B是A”。大模型存在“反转诅咒”现象。
量子位
2023/09/26
3720
GPT-4也难逃“反转诅咒”!新研究发现:大模型存在推理缺陷,知道“A是B”推不出“B是A”
AI几秒钟内解决大学数学问题,拿到80%多准确率,还充当出题老师
机器之心报道 编辑:杨阳 或许,你做的数学考题,是机器生成的。 MIT 的学生可以不费吹灰之力就能解决多元微积分、微分方程、线性代数等数学课题,但这些却把机器学习模型给难倒了。因为机器学习模型只能回答小学或高中水平的数学问题,而且它们并不总是能找到正确答案。 现在,来自 MIT、哥伦比亚大学、哈佛大学和滑铁卢大学的研究者,他们使用小样本学习、OpenAI 的 Codex 来自动合成程序,在几秒钟内解决了大学数学问题,达到了人类水平。这项研究发表在《美国国家科学院院刊》(PNAS)上。 此外,该模型对生成的解
机器之心
2022/08/25
3100
AI几秒钟内解决大学数学问题,拿到80%多准确率,还充当出题老师
直逼DeepSeek-R1-32B,碾压李飞飞s1!UC伯克利等开源全新SOTA推理模型
就在刚刚,来自斯坦福、UC伯克利、华盛顿大学等机构联手发布了一款SOTA级推理模型——OpenThinker-32B,并同时开源了高达114k的训练数据。
新智元
2025/02/15
1330
直逼DeepSeek-R1-32B,碾压李飞飞s1!UC伯克利等开源全新SOTA推理模型
答案抽取正确率达96.88%,xFinder断了大模型「作弊」的小心思
本文第一作者和通讯作者均来自上海算法创新研究院。其中,通讯作者李志宇博士毕业于中国人民大学计算机专业,并曾在阿里巴巴、小红书等互联网公司从事算法落地与研究工作,曾参与了包括千亿级商品知识图谱、用户图谱和舆情图谱的研发工作,累计发表论文四十余篇。李志宇当前在上海算法创新研究院大模型部门(由熊飞宇博士带领)负责整体的技术研发工作。研究院主页:https://www.iaar.ac.cn/
机器之心
2024/06/17
1540
答案抽取正确率达96.88%,xFinder断了大模型「作弊」的小心思
数学推理增强!微软 | 提出数据合成框架:KPDDS,微调Mistral-7B性能超34B模型!
在数学推理领域,大型语言模型(LLMs)的性能受限于高质量训练数据。为此,本文提出关键点驱动的数据合成(KPDDS)框架,它通过分析真实数据中的关键点和示例对来生成问答对。基于此框架作者创建了KPMath数学问题数据集,并通过与额外的推理密集型数据结合,形成了KPMath-Plus数据集。在KPMath-Plus上微调的Mistral-7B模型在MATH测试集上达到了39.3%的零样本PASS@1准确率,不仅超过了7B模型,还超过了34B模型。
ShuYini
2024/03/14
3070
数学推理增强!微软 | 提出数据合成框架:KPDDS,微调Mistral-7B性能超34B模型!
人工智能学会数学推理了,考试成绩比CS博士还高
机器之心报道 编辑:杜伟、陈萍 这是语言模型推理能力的一个重要里程碑。 AI 在数学方面也有超越人类的趋势了? 昨天,谷歌提交的一篇论文引发了机器学习圈的关注,其提出的语言模型学会了人类做数学题时的方法「一步一步推理」。 在 MATH 数据集上,谷歌的新模型能实现 50% 的准确率——此前对人类的评测结果是:「一个不特别喜欢数学的计算机科学博士生能答对大约 40%,而三届国际数学奥林匹克竞赛(IMO)金牌得主能达到 90%。」 语言模型在各种 NLP 任务上都表现出了卓越的性能。事实上,在众多研究中科研人
机器之心
2022/07/04
4960
人工智能学会数学推理了,考试成绩比CS博士还高
prompt概念提出者之一刘鹏飞发布Abel,仅仅使用SFT即可达数学开源SoTA,超越十亿多美元模型MathGPT和GPT4
今天突然看到prompt概念提出者刘鹏飞(现上交大副教授)在twitter上的消息:
zenRRan
2023/09/25
5980
prompt概念提出者之一刘鹏飞发布Abel,仅仅使用SFT即可达数学开源SoTA,超越十亿多美元模型MathGPT和GPT4
轻松拿捏高等数学,LLM平均得分90+!GPT-4o、Mistral几乎没错
最新研究用32道测试题,总计320分,涵盖4大主题:向量计算、几何分析、积分计算、优化问题,评估了AI模型在高等数学的表现。
新智元
2025/03/11
820
轻松拿捏高等数学,LLM平均得分90+!GPT-4o、Mistral几乎没错
临床模型 | 大型语言模型编码临床知识 | Nature
◉ 我们整理了MultiMedQA,这是一个涵盖医学考试、医学研究和消费者医学问题的基准数据集。◉ 我们在MultiMedQA上评估了PaLM及其指令调优变体Flan-PaLM。◉ 通过结合多种提示策略,Flan-PaLM在MedQA(美国医学执照考试)、MedMCQA、PubMedQA和MMLU临床主题上的表现超过了现有最先进的模型。◉ 特别是在MedQA(美国医学执照考试)上,其性能比之前的最佳水平提高了超过17%。◉ 接下来,我们提出了指令提示调优方法,以进一步使Flan-PaLM与医学领域对齐,生成了Med-PaLM。◉ 根据我们的人类评估框架,Med-PaLM对消费者医学问题的回答与临床医生的回答相当,证明了指令提示调优的有效性。
生信菜鸟团
2025/03/28
980
临床模型 | 大型语言模型编码临床知识 | Nature
正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完
9月底,OpenAI宣布ChatGPT多模态能力解禁。多模态GPT-4V的神奇能力让众人惊呼:这就是GPT-4.5吧?
新智元
2023/10/08
3.5K0
正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完
LLM准确率飙升27%!谷歌DeepMind提出全新「后退一步」提示技术
前段时间,谷歌DeepMind提出了一种全新的「Step-Back Prompting」方法,直接让prompt技术变得脑洞大开。
新智元
2023/12/01
3540
LLM准确率飙升27%!谷歌DeepMind提出全新「后退一步」提示技术
GPT-4 MATH准确率最高涨至84.3%!港中文、清华等七所顶尖高校提出全新CSV方法
虽然大型语言模型(LLMs)在常识理解、代码生成等任务中都取得了非常大的进展,不过在数学推理任务上仍然存在很大改进空间,经常会生成无意义、不准确的内容,或是无法处理过于复杂的计算。
新智元
2023/09/09
5220
GPT-4 MATH准确率最高涨至84.3%!港中文、清华等七所顶尖高校提出全新CSV方法
波士顿大学「鸭嘴兽-70B」登顶Hugging Face大模型排行榜!高效数据集+独特LoRA微调是关键
Hugging Face上的开源大模型排名榜又更新了,这次荣登榜一的是:鸭嘴兽(Platypus 2-70B)!
新智元
2023/09/09
4640
波士顿大学「鸭嘴兽-70B」登顶Hugging Face大模型排行榜!高效数据集+独特LoRA微调是关键
多步推理碾压GPT-4o,无需训练性能提升10%!斯坦福开源通用框架OctoTools
大型语言模型(LLMs)目前仍然很难处理需要多步骤推理、特定领域知识或外部工具集成的复杂任务,有研究工作探索了使用预先构建的外部工具来增强LLMs处理复杂任务的能力,但这些方法需要对模型进行微调或额外训练以实现工具的集成,在不同任务之间难以灵活适应。
新智元
2025/03/12
900
多步推理碾压GPT-4o,无需训练性能提升10%!斯坦福开源通用框架OctoTools
清华微软「LLM+推理智能体」超越GPT-4!攻克数理难题,斩获开源界MATH最佳成绩
清华大学,微软研究院共同发表了一篇论文,创造性地提出了TORA:在LLM之外使用推理智能体,结合自然语言分布推理,就能大幅提高研究LLM的数理能力和推理能力。
新智元
2023/10/28
6780
清华微软「LLM+推理智能体」超越GPT-4!攻克数理难题,斩获开源界MATH最佳成绩
推荐阅读
GPT-4推理太离谱!大学数理化总分没过半,21类推理题全翻车,马库斯:AGI太遥远
4120
Chem. Sci. | 微调语言大模型,深挖化学数据矿
3770
MIT发布加强版「高数」求解器:7门课程正确率达81%
4970
GPT-4被曝重大缺陷,35年前预言成真!所有LLM正确率都≈0,惹Karpathy马库斯惊呼
3310
谷歌医疗大模型登Nature,Med-PaLM重磅揭秘!AI医生成绩比肩人类
5910
GPT-4也难逃“反转诅咒”!新研究发现:大模型存在推理缺陷,知道“A是B”推不出“B是A”
3720
AI几秒钟内解决大学数学问题,拿到80%多准确率,还充当出题老师
3100
直逼DeepSeek-R1-32B,碾压李飞飞s1!UC伯克利等开源全新SOTA推理模型
1330
答案抽取正确率达96.88%,xFinder断了大模型「作弊」的小心思
1540
数学推理增强!微软 | 提出数据合成框架:KPDDS,微调Mistral-7B性能超34B模型!
3070
人工智能学会数学推理了,考试成绩比CS博士还高
4960
prompt概念提出者之一刘鹏飞发布Abel,仅仅使用SFT即可达数学开源SoTA,超越十亿多美元模型MathGPT和GPT4
5980
轻松拿捏高等数学,LLM平均得分90+!GPT-4o、Mistral几乎没错
820
临床模型 | 大型语言模型编码临床知识 | Nature
980
正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完
3.5K0
LLM准确率飙升27%!谷歌DeepMind提出全新「后退一步」提示技术
3540
GPT-4 MATH准确率最高涨至84.3%!港中文、清华等七所顶尖高校提出全新CSV方法
5220
波士顿大学「鸭嘴兽-70B」登顶Hugging Face大模型排行榜!高效数据集+独特LoRA微调是关键
4640
多步推理碾压GPT-4o,无需训练性能提升10%!斯坦福开源通用框架OctoTools
900
清华微软「LLM+推理智能体」超越GPT-4!攻克数理难题,斩获开源界MATH最佳成绩
6780
相关推荐
GPT-4推理太离谱!大学数理化总分没过半,21类推理题全翻车,马库斯:AGI太遥远
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档