Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >陈丹琦团队发布CharXiv数据集:重新定义图表理解的评估标准

陈丹琦团队发布CharXiv数据集:重新定义图表理解的评估标准

作者头像
zenRRan
发布于 2024-07-04 04:43:41
发布于 2024-07-04 04:43:41
3110
举报

论文:CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs 链接:https://arxiv.org/pdf/2406.18521 项目:https://charxiv.github.io

这篇文章的标题是《CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs》,由普林斯顿大学、威斯康星大学麦迪逊分校和香港大学的研究人员撰写。文章主要关注多模态大型语言模型(MLLMs)在理解和分析图表方面的能力和局限。

以下是对文章的简洁解读:

  1. 研究背景:在现实世界任务中,如分析科学论文或财务报告,图表理解对MLLMs至关重要。但现有的数据集通常关注过于简化和同质化的图表,以及基于模板的问题,这导致对模型进展的评估过于乐观。
  1. 现有问题:尽管一些开源模型在现有基准测试中表现优于专有模型,但研究表明,当图表或问题稍有变化时,性能可能下降高达34.5%。
  1. CharXiv数据集:文章提出了一个新的评估套件CharXiv,包含来自arXiv论文的2323个自然、具有挑战性和多样化的图表。CharXiv包含两种类型的问题:描述性问题(检查图表的基本元素)和推理问题(需要综合图表中的复杂视觉元素)。
  1. 数据质量:所有图表和问题都由人类专家挑选、策划和验证,确保了质量。
  2. 评估结果:研究结果显示,即使是最强的专有模型(如GPT-4o)和开源模型(如InternVL Chat V1.5)在图表理解能力上也存在显著差距,远落后于人类的表现。
  1. 研究意义:CharXiv旨在通过提供更现实和准确的评估,促进未来MLLMs在图表理解方面的研究。
  2. 实验设置:评估了13个开源模型和11个专有模型,发现开源和专有模型之间存在显著差异。
  3. 结论:文章指出,现有的基准测试设计缺陷导致了对图表理解能力的高估,并强调了开发新的评估工具如CharXiv的重要性。

文章还包括了详细的相关工作、实验结果、分析和结论部分,但由于篇幅限制,这里只提供了一个高层次的概述。

本文由kimi+人工共同完成。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
ICML 2025 Spotlight | 多模态大模型暴露短板?EMMA基准深度揭秘多模态推理能力
「三个点电荷 + Q、-2Q 和 + 3Q 等距放置,哪个向量最能描述作用在 + Q 电荷上的净电力方向?」
机器之心
2025/05/21
1210
ICML 2025 Spotlight | 多模态大模型暴露短板?EMMA基准深度揭秘多模态推理能力
​ LaVy 与 LaVy-Bench | 推进越南语多模态语言理解研究与基准测试 !
近年来,大型语言模型(LLM)在各种自然语言处理任务中展示了卓越的能力,证明了它们在复杂推理和语言理解方面的专长。LLM的成功激励研究行人探索多模态大型语言模型(MLLM)的潜力,这些模型结合了视觉信息与文本数据。MLLM在需要理解语言与视觉之间互动的任务中表现出了良好的结果,如图像字幕生成、视觉问答和多模态机器翻译。
AIGC 先锋科技
2024/07/08
1700
​ LaVy 与 LaVy-Bench  |  推进越南语多模态语言理解研究与基准测试 !
最强GPT-4o也才刚及格?智源联合多所高校推出首个多任务长视频评测基准MLVU
当前,研究社区亟需全面可靠的长视频理解评估基准,以解决现有视频理解评测基准在视频长度不足、类型和任务单一等方面的局限性。
CV君
2024/06/17
1370
最强GPT-4o也才刚及格?智源联合多所高校推出首个多任务长视频评测基准MLVU
每周AI论文速递(250113-250117)
尽管大语言模型 (LLMs) 表现卓越,但其发展面临一个关键挑战:在人类评估困难或 LLMs 超越人类的任务中,如何提供有效的反馈。尽管使用 LLMs 进行批评的兴趣日益增长,但当前的方法仍然依赖于人类注释或更强大的模型,这使得在没有外部监督的情况下增强批评能力的问题仍未解决。我们提出了 SCRIT (Self-evolving CRITic),这是一个能够实现批评能力真正自我进化的框架。从技术上讲,SCRIT 通过训练合成数据进行自我改进,这些数据由基于对比的自我批评者生成,该批评者使用参考解决方案进行逐步批评,并通过自我验证机制确保批评质量,该机制通过纠正结果来确保批评质量。使用 Qwen2.5-72B-Instruct(最强大的 LLMs 之一)实现,SCRIT 在批评纠正和错误识别基准测试中实现了高达 10.3% 的提升。我们的分析表明,SCRIT 的性能随着数据和模型规模的增加而正向扩展,优于其他方法,并且其自我验证组件对其性能至关重要。
叶子的技术碎碎念
2025/04/08
660
每周AI论文速递(250113-250117)
颜水成领衔,给AI分段位!超100款多模态模型,无人达到L5
得益于大语言模型强大的文本理解与生成能力,用户可以用「自然语言」来操控其他模态的模态,比如用文本生成图片、视频等。
新智元
2025/05/21
830
颜水成领衔,给AI分段位!超100款多模态模型,无人达到L5
李飞飞、谢赛宁等探索MLLM「视觉空间智能」,网友:2025有盼头了
在购买家具时,我们会尝试回忆起我们的客厅,以想象一个心仪的橱柜是否合适。虽然估计距离是困难的,但即使只是看过一次,人类也能在脑海里重建空间,回忆起房间里的物体、它们的位置和大小。
机器之心
2025/02/15
630
李飞飞、谢赛宁等探索MLLM「视觉空间智能」,网友:2025有盼头了
考考大模型视频理解能力,中科院人大百川提出新基准合成框架
测试Gemini1.5 Pro、GPT-4o等多模态大模型的新基准来了,针对视频理解能力的那种。
量子位
2024/06/21
1540
考考大模型视频理解能力,中科院人大百川提出新基准合成框架
大模型能看懂图片的弦外之音吗?多模态大模型新基准II-Bench
在人工智能飞速发展的今天,大模型的感知能力已经达到了令人惊叹的水平。但是,它们真的能够像人类一样,洞悉图片中的深层含义吗?为了探讨多模型大模型与人类的差距,来自中科院深圳先进院,M-A-P,华中科技大学,零一万物,滑铁卢大学等多家机构联合提出了首个用于评估多模态大模型(MLLMs)图像隐喻理解能力的综合性基准测试II-Bench。
zenRRan
2024/06/18
6050
大模型能看懂图片的弦外之音吗?多模态大模型新基准II-Bench
轻量级视频压缩(LVC):以最小成本迁移长视频理解能力,解决VLMs采样问题并提升多模型性能 !
大语言模型(LLMs)的快速发展推动了视频理解研究范式的转变,从传统的以视觉为中心的方法转向利用跨模态对齐能力的基于LLM的框架。这种由LLM驱动的革命体现在两种主要架构中:在视频-文本对齐数据上预训练的视频LLMs[3, 16, 23]和以图像-文本对齐[19, 25]为核心的视觉语言模型(VLMs)。
AIGC 先锋科技
2025/05/14
850
轻量级视频压缩(LVC):以最小成本迁移长视频理解能力,解决VLMs采样问题并提升多模型性能 !
多模态大模型面对误导性问题:看懂图片也会答错,一骗就中招
多模态大语言模型(MLLMs)因其在视觉理解和推理方面的突出表现,例如生成详细的图像描述和回答复杂的问题等,逐渐成为近期AI研究的热点。
CV君
2024/06/27
2460
多模态大模型面对误导性问题:看懂图片也会答错,一骗就中招
【源头活水】本周Big Model论文精选!
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注!
马上科普尚尚
2024/07/29
1160
【源头活水】本周Big Model论文精选!
2024年6月上半月30篇大语言模型的论文推荐
大语言模型(LLMs)在近年来取得了快速发展。本文总结了2024年6月上半月发布的一些最重要的LLM论文,可以让你及时了解最新进展。
deephub
2024/07/01
6600
2024年6月上半月30篇大语言模型的论文推荐
每日学术速递3.24
1.MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research
AiCharm
2025/03/24
910
每日学术速递3.24
ICLR 2025 | 多模态大模型能否胜任工业异常检测?MMAD基准揭示真相
事实上,工业场景中的许多任务——例如异常检测——就属于这种基础但至关重要的工作。想象一下,一个工厂质检员每天需要检查成千上万的产品,找出微小的缺陷或异常。这是一项既繁琐又要求极高的工作,通常依赖大量人力完成。如果能够用AI替代这种重复性强且耗时的任务,不仅可以显著提高效率,还能让人类员工专注于更具创造性和战略性的工作。
小腾资讯君
2025/02/14
4810
Y-MoD:探索深度混合适应性,适用于多模式大语言模型 !
近年来,自然语言处理(NLP)领域大型语言模型(LLMs)取得了巨大成功,这吸引了越来越多的关注,以将其扩展到视觉语言(VL)任务。尽管取得了进步,但最近的多模态大型语言模型(MLLMs)往往受到其昂贵的计算成本的批评。例如,现有 MLLMs 的推理速度仍远低于实际需求,例如每秒4.7个样本。受NLP进步的推动,最近的技术进步采用了混合专家(MoEs)来减少MLLMs的“激活参数”,从而在效率和性能之间实现了权衡。
AIGC 先锋科技
2024/11/06
1540
Y-MoD:探索深度混合适应性,适用于多模式大语言模型 !
每周AI论文速递(241014-241018)
GPT-4o 在多模态能力和交互体验方面的显著表现,使其在实际应用中扮演了重要角色,但目前尚无高性能的开源替代方案。本文中,我们推出了 Baichuan-Omni,这是首个开源的 7B 多模态大语言模型 (MLLM),能够同时处理和分析图像、视频、音频和文本,并提供卓越的多模态交互体验和强劲性能。我们设计了一种高效的多模态训练策略,从 7B 模型出发,通过多模态对齐和跨模态多任务微调两个阶段,使模型能够有效处理视觉和音频数据。在多项全模态和多模态基准测试中表现出色,我们希望这一成果能成为开源社区在推动多模态理解和实时交互领域的有力基石。
叶子的技术碎碎念
2025/04/08
1060
每周AI论文速递(241014-241018)
每周AI论文速递(241230-250103)
OpenAI 的 GPT-4 突破突显了通过增强推理能力来改进大语言模型的潜力。然而,大多数关于推理的研究都集中在数学任务上,而像医学这样的领域则研究较少。尽管医学领域与数学不同,但由于医疗保健的高要求,它同样需要强大的推理能力来提供可靠的答案。然而,与数学不同,验证医学推理更具挑战性。为了解决这个问题,我们提出了可验证的医学推理问题,并使用医学验证器来检查模型输出的正确性。这种可验证性通过两阶段方法促进了医学推理的发展:(1) 使用验证器指导搜索复杂的推理轨迹以微调大语言模型,(2) 应用基于验证器奖励的强化学习 (RL) 来进一步增强复杂推理。最后,我们介绍了 HuatuoGPT-o1,这是一种能够进行复杂推理的医学大语言模型,仅使用 40K 个可验证问题就超越了通用和医学专用基准模型。实验表明,复杂推理提高了医学问题解决能力,并且从强化学习中获得更大的提升。我们希望我们的方法能够激发医学和其他专业领域推理的进步。
叶子的技术碎碎念
2025/04/08
730
每周AI论文速递(241230-250103)
利用大型语言模型和扩散模型大规模生成视觉最小变化数据,提升VLMs的细粒度理解能力 !
细粒度地理解目标、属性及其关系对于视觉-语言模型(VLMs)有效泛化到新的、未见过的场景和构图至关重要。以往的研究如ARO [40] 和 Sugarcrepe [8],强调了VLMs在这一领域的不足,主要关注于理解两个非常相似的标题之间的细粒度差异——一个人工编写的标题和自动生成的硬负例2标题,其中硬负例标题与原标题仅在目标、属性或两个目标之间的关系上有所不同。虽然可以通过基于规则的方法合成标题的硬负例,但为图像合成这样的硬负例则非常具有挑战性。
AIGC 先锋科技
2024/07/31
3340
利用大型语言模型和扩散模型大规模生成视觉最小变化数据,提升VLMs的细粒度理解能力 !
多模态图表理解新SOTA: TinyChart-3B,兼顾性能和效率
作为一种重要的信息来源,图表(Chart)能够直观地展示数据关系,被广泛地应用于信息传播、商业预测和学术研究中 [1]。随着互联网数据的激增,自动化图表理解受到广泛关注,近期诸如GPT-4V、QwenVL-Max和Gemini-Ultra等通用闭源多模态大模型都展现出一定的图表理解能力,开源模型Chartllama [2]、ChartAst [3]等也在图表问题回答、图表总结和图表转换等任务上取得强大的性能。然而,目前开源的图表理解模型有以下三个局限:(1)模型参数规模庞大,难以部署到应用中。例如Chartllama包含13B参数,无法直接部署到单张小于26 GB显存的消费级显卡上 [4]。(2)模型容易出现数值错误,尤其是回答涉及数值计算的问题时 [3]。(3)模型无法高效处理高清图片,而许多关键信息(比如OCR文本)往往需要在较高分辨率下才清晰可见。并且,考虑到标准视觉Transformer会产生较长的视觉特征序列,直接提高输入分辨率又会带来计算效率问题。
zenRRan
2024/05/11
7840
多模态图表理解新SOTA: TinyChart-3B,兼顾性能和效率
每周AI论文速递(241216-241220)
尽管视频感知能力已迅速集成到大语言模型 (LMM) 中,但其驱动视频理解的基础机制仍未被充分理解。因此,该领域中的许多设计决策缺乏适当的依据或分析。训练和评估此类模型的高计算成本,加上有限的开放研究,阻碍了视频-LMM 的发展。为解决这一问题,我们进行了一项全面研究,旨在揭示有效驱动 LMM 中视频理解的因素。 我们首先批判性地审视了与视频-LMM 研究相关的高计算需求的主要贡献因素,并发现了规模一致性 (Scaling Consistency),即在较小模型和数据集 (达到临界规模) 上做出的设计和训练决策能有效迁移到更大模型上。基于这些见解,我们探索了视频-LMM 的许多视频特定方面,包括视频采样、架构、数据组成、训练计划等。例如,我们证明了训练期间的 fps (frames per second) 采样远优于均匀帧采样,并确定了哪些视觉编码器最适合视频表示。 在这些发现指导下,我们引入了 Apollo,这是一系列在不同模型规模上实现卓越性能的先进 LMM。我们的模型能够高效感知长达一小时的视频,其中 Apollo-3B 在 LongVideoBench 上以 55.1 的分数超越了大多数现有 7B 模型。Apollo-7B 在与 7B LMM 的比较中处于领先地位,在 MLVU 上获得 70.9 分,在 Video-MME 上获得 63.3 分。
叶子的技术碎碎念
2025/04/08
780
每周AI论文速递(241216-241220)
推荐阅读
ICML 2025 Spotlight | 多模态大模型暴露短板?EMMA基准深度揭秘多模态推理能力
1210
​ LaVy 与 LaVy-Bench | 推进越南语多模态语言理解研究与基准测试 !
1700
最强GPT-4o也才刚及格?智源联合多所高校推出首个多任务长视频评测基准MLVU
1370
每周AI论文速递(250113-250117)
660
颜水成领衔,给AI分段位!超100款多模态模型,无人达到L5
830
李飞飞、谢赛宁等探索MLLM「视觉空间智能」,网友:2025有盼头了
630
考考大模型视频理解能力,中科院人大百川提出新基准合成框架
1540
大模型能看懂图片的弦外之音吗?多模态大模型新基准II-Bench
6050
轻量级视频压缩(LVC):以最小成本迁移长视频理解能力,解决VLMs采样问题并提升多模型性能 !
850
多模态大模型面对误导性问题:看懂图片也会答错,一骗就中招
2460
【源头活水】本周Big Model论文精选!
1160
2024年6月上半月30篇大语言模型的论文推荐
6600
每日学术速递3.24
910
ICLR 2025 | 多模态大模型能否胜任工业异常检测?MMAD基准揭示真相
4810
Y-MoD:探索深度混合适应性,适用于多模式大语言模型 !
1540
每周AI论文速递(241014-241018)
1060
每周AI论文速递(241230-250103)
730
利用大型语言模型和扩散模型大规模生成视觉最小变化数据,提升VLMs的细粒度理解能力 !
3340
多模态图表理解新SOTA: TinyChart-3B,兼顾性能和效率
7840
每周AI论文速递(241216-241220)
780
相关推荐
ICML 2025 Spotlight | 多模态大模型暴露短板?EMMA基准深度揭秘多模态推理能力
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档