Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >吴恩达团队新作!

吴恩达团队新作!

作者头像
对白
发布于 2024-07-24 06:07:04
发布于 2024-07-24 06:07:04
1690
举报
文章被收录于专栏:对白的算法屋对白的算法屋

转载自| 机器之心

本研究评估了先进多模态基础模型在 10 个数据集上的多样本上下文学习,揭示了持续的性能提升。批量查询显著降低了每个示例的延迟和推理成本而不牺牲性能。这些发现表明:利用大量演示示例可以快速适应新任务和新领域,而无需传统的微调

  • 论文地址:https://arxiv.org/abs/2405.09798
  • 代码地址:https://github.com/stanfordmlgroup/ManyICL

背景介绍

在近期的多模态基础模型(Multimodal Foundation Model)研究中,上下文学习(In-Context Learning, ICL)已被证明是提高模型性能的有效方法之一。

然而,受限于基础模型的上下文长度,尤其是对于需要大量视觉 token 来表示图片的多模态基础模型,已有的相关研究只局限于在上下文中提供少量样本。

令人激动的是,最新的技术进步大大增加了模型的上下文长度,这为探索使用更多示例进行上下文学习提供了可能性。

基于此,斯坦福吴恩达团队的最新研究——ManyICL,主要评估了目前最先进的多模态基础模型在从少样本 (少于 100) 到多样本(最高至 2000)上下文学习中的表现。通过对多个领域和任务的数据集进行测试,团队验证了多样本上下文学习在提高模型性能方面的显著效果,并探讨了批量查询对性能和成本及延迟的影响。

Many-shot ICL与零样本、少样本ICL的比较。

方法概览

本研究选择了三种先进的多模态基础模型:GPT-4o、GPT4 (V)-Turbo 和 Gemini 1.5 Pro。出于 GPT-4o 优越的表现,研究团队在正文中着重讨论 GPT-4o 和 Gemini 1.5 Pro, GPT4 (V)-Turbo 的相关内容请于附录中查看。

数据集方面,研究团队在 10 个跨越不同领域(包括自然影像、医学影像、遥感影像和分子影像等)和任务(包括多分类、多标签分类和细粒度分类)的数据集上进行了广泛的实验。

基准数据集汇总。

为了测试增加示例数量对模型性能的影响,研究团队逐步增加了上下文中提供的示例数量,最高达到近 2000 个示例。同时,考虑到多样本学习的高成本和高延迟,研究团队还探索了批量处理查询的影响。在这里,批量查询指的是在单次 API 调用中处理多个查询。

实验结果

多样本上下文学习性能评估

总体表现:包含近 2000 个示例的多样本上下文学习在所有数据集上均优于少样本学习。随着示例数量的增加,Gemini 1.5 Pro 模型的性能呈现出持续的对数线性提升,而 GPT-4o 的表现则较不稳定。

数据效率:研究测量了模型的上下文学习数据效率,即模型从示例中学习的速度。结果表明,Gemini 1.5 Pro 在绝大部分数据集上显示出比 GPT-4o 更高的上下文学习数据效率,意味着它能够更有效地从示例中学习。

批量查询的影响

总体表现:在选择最优示例集大小下的零样本和多样本情境中,将多个查询合并为一次请求,不会降低性能。值得注意的是,在零样本场景中,单个查询在许多数据集上表现较差。相比之下,批量查询甚至可以提高性能。

零样本场景下的性能提升:对于某些数据集(如 UCMerced),批量查询在零样本场景下显著提高了性能。研究团队分析认为,这主要归因于领域校准 (domain calibration)、类别校准 (class calibration) 以及自我学习 (self-ICL)。

成本和延迟分析

多样本上下文学习虽然在推理时需要处理更长的输入上下文,但通过批量查询可以显著降低每个示例的延迟和推理成本。例如,在 HAM10000 数据集中,使用 Gemini 1.5 Pro 模型进行 350 个示例的批量查询,延迟从 17.3 秒降至 0.54 秒,成本从每个示例 0.842 美元降至 0.0877 美元。

结论

研究结果表明,多样本上下文学习能够显著提高多模态基础模型的表现,尤其是 Gemini 1.5 Pro 模型在多个数据集上表现出持续的性能提升,使其能够更有效地适应新任务和新领域,而无需传统的微调。

其次,批量处理查询可以在相似甚至更好的模型表现的同时,降低推理成本和延迟,显示出在实际应用中的巨大潜力。

总的来说,吴恩达团队的这项研究为多模态基础模型的应用开辟了新的路径,特别是在快速适应新任务和领域方面。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 对白的算法屋 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
【源头活水】吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务
本研究评估了先进多模态基础模型在 10 个数据集上的多样本上下文学习,揭示了持续的性能提升。批量查询显著降低了每个示例的延迟和推理成本而不牺牲性能。这些发现表明:利用大量演示示例可以快速适应新任务和新领域,而无需传统的微调。
马上科普尚尚
2024/06/21
1930
【源头活水】吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务
长视频AI推理的“圣杯”!英伟达、MIT、港大、UC伯克利等重磅开源Long-RL
论文链接:https://arxiv.org/pdf/2507.07966 Git链接:https://github.com/NVlabs/Long-RL
AI生成未来
2025/08/27
2010
长视频AI推理的“圣杯”!英伟达、MIT、港大、UC伯克利等重磅开源Long-RL
混合先验增强表格基础模型技术
表格数据驱动着医疗、金融、电子商务和科学等领域的核心决策。然而,传统用于表格数据的机器学习方法(如随机森林和XGBoost)通常会产生针对单个数据集的定制模型,跨分布迁移能力有限。
用户11764306
2025/09/10
1140
只需千元训练费,单图就能练出“看图说话”神器,性能直逼GPT-4o!VLV自编码器来啦!
文章链接:https://arxiv.org/pdf/2507.07104 项目链接:https://tiezheng11.github.io/VLV-WebPage/
AI生成未来
2025/08/27
1520
只需千元训练费,单图就能练出“看图说话”神器,性能直逼GPT-4o!VLV自编码器来啦!
对于大模型,到底微调还是不微调?
调整开源大语言模型(LLM)的系列博客的第二篇文章。本文讨论:“什么时候应该进行微调,什么时候应该考虑其他技术?”
JavaEdge
2024/09/16
6460
对于大模型,到底微调还是不微调?
吴恩达:四个步骤,让大模型变得更好
前有 OpenAI 抢先发布 GPT-4o,后有谷歌在 I/O 开发者大会上发布一系列生成式人工智能模型与产品。
Ai学习的老章
2024/05/20
2620
吴恩达:四个步骤,让大模型变得更好
充分发挥潜力!Google | 大模型(LLMs)的专属:多样本上下文学习(Many-shot ICL)
大语言模型非常擅长上下文学习(ICL),随着大模型上下文窗口的不断扩展,它可以让我们使用数百或者上千个样例,然而,当前多样本上下文学习(many-shot ICL)却受限于高质量人类生成示例。
ShuYini
2024/04/26
4180
充分发挥潜力!Google | 大模型(LLMs)的专属:多样本上下文学习(Many-shot ICL)
DeepMind的新论文,长上下文的大语言模型能否取代RAG或者SQL这样的传统技术呢?
长上下文大型语言模型(LCLLMs)确实引起了一些关注。这类模型可能使某些任务的解决更加高效。例如理论上可以用来对整本书进行总结。有人认为,LCLLMs不需要像RAG这样的外部工具,这有助于优化并避免级联错误。但是也有许多人对此持怀疑态度,并且后来的研究表明,这些模型并没有真正利用长上下文。还有人声称,LCLLMs会产生幻觉错误,而其他研究则表明,较小的模型也能高效解决这些任务。
deephub
2024/07/01
3300
DeepMind的新论文,长上下文的大语言模型能否取代RAG或者SQL这样的传统技术呢?
Few-Shot Learning(少样本学习)
Few-Shot Learning(少样本学习)是一种机器学习范式,旨在使模型能够在只有少量标注数据的情况下快速适应新任务或识别新的类别。这种能力对于许多实际应用场景非常重要,因为在这些场景中获取大量标注数据可能是昂贵、耗时甚至是不可能的。以下是关于Few-Shot Learning的详细解析:
jack.yang
2025/04/05
7890
考考大模型视频理解能力,中科院人大百川提出新基准合成框架
测试Gemini1.5 Pro、GPT-4o等多模态大模型的新基准来了,针对视频理解能力的那种。
量子位
2024/06/21
2170
考考大模型视频理解能力,中科院人大百川提出新基准合成框架
ChatGPT多模态命名实体识别
多模态命名实体识别(MNER)最近引起了广泛关注。 用户在社交媒体上生成大量非结构化内容,主要由图像和文本组成。这些帖子具有与社交媒体相关的固有特征,包括简洁和非正式的写作风格。 这些独特的特征对传统的命名实体识别(NER)方法提出了挑战。
E绵绵
2024/11/09
3160
ChatGPT多模态命名实体识别
生活机器人最后考验!杨笛一团队发布EgoNormia:现实中能否符合社会规范?
随着人工智能技术日益成熟,社会各界对AI或机器人能否学习并遵循社会规范的问题越来越关注。从早期的科幻小说到如今的现实应用,人类始终期望机器能够理解并内化这些根植于社会生活中的「规范」。
新智元
2025/03/20
980
生活机器人最后考验!杨笛一团队发布EgoNormia:现实中能否符合社会规范?
大模型何以擅长小样本学习?ICLR 2025这项研究给出详细分析
近年来,大语言模型(LLM)在人工智能领域取得了突破性进展,成为推动自然语言处理技术发展与通用人工智能实现的核心力量。上下文学习能力(In-Context Learning, ICL)是 LLM 最显著且重要的能力之一,它允许 LLM 在给定包含输入输出示例的提示(prompt)后,直接生成新输入的输出,这一过程仅通过前向传播而无需调整模型权重。这种能力使得 LLM 能够基于上下文中的示例快速理解并适应新任务,展现出强大的小样本学习和泛化能力。理解 LLM 是如何实现 ICL 的,对于提高模型性能与效率、提升模型可解释性与 AI 安全、推广大模型应用与改进小样本学习算法具有重要意义,也是近来机器学习研究热点之一。有以下关键问题需要回答:
机器之心
2025/04/26
3880
大模型何以擅长小样本学习?ICLR 2025这项研究给出详细分析
Gemini在大考终于赢了GPT-4o!Jeff Dean连续转发三次!Video-MME首个视频多模态基准来了!
近日,中科大、厦大、港中文等高校联合推出多模态大模型视频分析综合评估基准Video-MME,全面评估多模态大模型的综合视频理解能力,填补了这一领域的空白。Gemini 1.5 Pro在这份榜单中遥遥领先,证明其在视频理解领域的霸主地位。Video-MME一经推出,更是被谷歌首席科学家Jeff Dean连续转发了三次!目前已有近30万的浏览量,热度很高。
CV君
2024/06/17
4020
Gemini在大考终于赢了GPT-4o!Jeff Dean连续转发三次!Video-MME首个视频多模态基准来了!
想纠正LMM犯错?没用!NUS华人团队:最强o1反馈修正率不到50%
大规模多模态模型(Large Multimodal Models,LMM)在人类反馈下的表现如何?
新智元
2025/03/17
730
想纠正LMM犯错?没用!NUS华人团队:最强o1反馈修正率不到50%
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
近年来,大型语言模型取得了显著进展。通过扩大数据大小和模型大小,这些LLM提高了惊人的涌现能力,通常包括上下文学习(ICL)、指令跟随和思想链(CoT)。尽管LLM在大多数自然语言处理(NLP)任务中表现出了令人惊讶的Zero/Few-Shot推理性能,但它们天生对视觉“视而不见”,因为它们只能理解离散文本。
集智书童公众号
2023/09/04
13.9K0
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
能像乐高一样组合,LoraHub挖掘LoRA 模块化特性
OpenAI GPT、Flan-T5 和 LLaMA 等大型预训练语言模型(LLM)极大的推动了自然语言处理(NLP)领域的发展。这些模型在许多 NLP 任务上都有绝佳表现。但是,由于这些模型都有大量参数,因此在微调时会涉及计算效率和内存使用量等问题。
机器之心
2023/08/08
4910
能像乐高一样组合,LoraHub挖掘LoRA 模块化特性
长文梳理!近年来GPT系列模型的发展历史:从GPT-1到GPT-4o(前世、今生)
随着ChatGPT的发布,大语言模型的关注度和数量都在不断上升,它引领了人类进入了大模型时代,并且随着一轮一轮的迭代,最新模型已经进化到了GPT-4o。在众多大语言模型中,GPT系列因其代表性而备受关注,其发展历程和技术革新值得深入探讨。那么今天带大家回顾一下近年来GPT系列模型的发展。【参考中国人民大学《大语言模型》】
ShuYini
2024/06/19
4.2K0
长文梳理!近年来GPT系列模型的发展历史:从GPT-1到GPT-4o(前世、今生)
大语言模型的预训练[5]:语境学习、上下文学习In-Context Learning:精调LLM、Prompt设计和打分函数设计以及ICL底层机制等原理详解
大规模预训练语言模型(LLM)如 GPT-3 是在大规模的互联网文本数据上训练,以给定的前缀来预测生成下一个 token(Next token prediction)。通过预测词的训练目标、大规模数据集以及超高参数量的模型相结合,产生了性能极强的 LLM,它可以 “理解” 任何文本输入,并在其基础上进行“写作”,除此以外,GPT-3 的论文发现,大规模的训练数据会产生一种有趣的新兴行为,称为 In-Context Learning(又称上下文学习,语境学习, ICL),他并不需要调整模型参数,仅用几条下游任务的示例就可以取得极佳的结果。
汀丶人工智能
2023/07/19
7.6K0
大语言模型的预训练[5]:语境学习、上下文学习In-Context Learning:精调LLM、Prompt设计和打分函数设计以及ICL底层机制等原理详解
首个多模态视频竞技场Video-MME来了!Gemini全面超越GPT-4o,Jeff Dean连转三次
不过近日,谷歌的Gemini终于扬眉吐气了一把,在全新的、更复杂的多模态考试中大获全胜,全面超越了GPT-4o。
新智元
2024/06/28
2970
首个多模态视频竞技场Video-MME来了!Gemini全面超越GPT-4o,Jeff Dean连转三次
推荐阅读
【源头活水】吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务
1930
长视频AI推理的“圣杯”!英伟达、MIT、港大、UC伯克利等重磅开源Long-RL
2010
混合先验增强表格基础模型技术
1140
只需千元训练费,单图就能练出“看图说话”神器,性能直逼GPT-4o!VLV自编码器来啦!
1520
对于大模型,到底微调还是不微调?
6460
吴恩达:四个步骤,让大模型变得更好
2620
充分发挥潜力!Google | 大模型(LLMs)的专属:多样本上下文学习(Many-shot ICL)
4180
DeepMind的新论文,长上下文的大语言模型能否取代RAG或者SQL这样的传统技术呢?
3300
Few-Shot Learning(少样本学习)
7890
考考大模型视频理解能力,中科院人大百川提出新基准合成框架
2170
ChatGPT多模态命名实体识别
3160
生活机器人最后考验!杨笛一团队发布EgoNormia:现实中能否符合社会规范?
980
大模型何以擅长小样本学习?ICLR 2025这项研究给出详细分析
3880
Gemini在大考终于赢了GPT-4o!Jeff Dean连续转发三次!Video-MME首个视频多模态基准来了!
4020
想纠正LMM犯错?没用!NUS华人团队:最强o1反馈修正率不到50%
730
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
13.9K0
能像乐高一样组合,LoraHub挖掘LoRA 模块化特性
4910
长文梳理!近年来GPT系列模型的发展历史:从GPT-1到GPT-4o(前世、今生)
4.2K0
大语言模型的预训练[5]:语境学习、上下文学习In-Context Learning:精调LLM、Prompt设计和打分函数设计以及ICL底层机制等原理详解
7.6K0
首个多模态视频竞技场Video-MME来了!Gemini全面超越GPT-4o,Jeff Dean连转三次
2970
相关推荐
【源头活水】吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务
更多 >
领券
一站式MCP教程库,解锁AI应用新玩法
涵盖代码开发、场景应用、自动测试全流程,助你从零构建专属AI助手
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档