前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >QVQ-72B-Preview:用智慧看世界

QVQ-72B-Preview:用智慧看世界

作者头像
致Great
发布2024-12-26 08:17:41
发布2024-12-26 08:17:41
24600
代码可运行
举报
文章被收录于专栏:自然语言处理自然语言处理
运行总次数:0
代码可运行

在进入 2025 年之前,Qwen 为大家准备了最后一份礼物,那就是 QVQ!🎉这是第一个用于视觉推理的开源模型权重。它被称为 QVQ,其中 V 代表视觉。

Qwen团队推出了新成员QVQ-72B-preview,这是一个专注于提升视觉推理能力的实验性研究模型。提升了视觉表示的效率和准确性。它在多模态评测集如MMMU、MathVista和MathVision上表现出色,尤其在数学推理任务中取得了显著进步。尽管如此,该模型仍存在一些局限性,仍在学习和完善中。

模型简介

QVQ-72B-Preview是基于 Qwen2-VL-72B 的多模态推理开放权重模型。QVQ-72B-Preview 代表了人工智能在视觉理解和复杂问题解决能力方面的重大飞跃。与 Qwen2-VL-72B-Instruct 相比,QVQ-72B-Preview 在 MMMU 上的得分为 70.3,并且在数学相关基准测试中显示出显着的改进。通过仔细的逐步推理,QVQ-72B-Preview 在视觉推理任务中展示了增强的能力,尤其是在需要复杂分析思维的领域表现出色

模型性能

Qwen在4个数据集上评估 QVQ-72B-Preview,包括:

  • MMMU:一所大学级多学科多模态评估数据集,旨在评估模型的视觉相关的综合理解和推理能力。
  • MathVista:以数学为中心的视觉推理测试集,使用谜题测试图形评估逻辑推理、使用函数图评估代数推理、使用学术论文图形评估科学推理等能力。
  • MathVision:源自真实数学竞赛的高质量多模态数学推理测试集,与 MathVista 相比具有更大的问题多样性和主题广度。
  • OlympiadBench:奥林匹克竞赛级双语多模态科学基准测试集,包含 8,476 道奥林匹克数学和物理竞赛题,包括中国高考。每道题都附有专家级注释,详细说明了分步推理过程。

尤其是 QVQ-72B-Preview 在 MMMU 基准测试中取得了令人印象深刻的 70.3 分,远远超过其前身 Qwen2-VL-72B-Instruct。此外,在其余三个针对数学和科学问题的基准测试中,该模型表现出色,有效缩小了与领先的最先进 o1 模型的差距。

模型体验

官方Demo体验地址为:

https://modelscope.cn/studios/Qwen/QVQ-72B-preview

  • 示例1 图片中的滤液E是什么化学物质?

模型答案:

代码语言:javascript
代码运行次数:0
复制
所以我在看这个黄铜矿处理的流程图,有点复杂,不过我试着理清楚。首先,黄铜矿被粉碎,然后和硫酸铵一起焙烧,通入空气。这个过程中,应该会发生一些化学反应,产生高温混合气和固体B。高温混合气主要含有氨气,用硫酸吸收后得到溶液A。固体B用水浸铜,得到滤液C和滤渣D。滤液C加入过量铁粉进行置换,得到滤液E和粗铜。粗铜再通过电解得到纯铜。

首先,我需要理解黄铜矿是什么。黄铜矿一般是铜铁硫化物,化学式大概是CuFeS₂。硫酸铵是(NH4)2SO4,焙烧过程中通入空气,应该是在高温下发生氧化反应。

高温混合气主要含氨气,可能是硫酸铵分解产生的。硫酸铵分解会生成氨气和硫酸氢铵,再分解生成氨气和水等。用硫酸吸收氨气,得到溶液A,应该是硫酸铵或者硫酸铵和硫酸氢铵的混合物。

固体B是焙烧后的固体产物,可能包含氧化铜、氧化铁等。用水浸铜,可能是将可溶性的铜盐溶解出来,得到滤液C,而滤渣D可能是不溶于水的物质,比如氧化铁等。

滤液C中加入过量铁粉,可以将铜离子还原为铜单质,自己被氧化为亚铁离子。这样得到粗铜和滤液E,滤液E应该是含有亚铁离子的溶液,可能还有未反应的其他离子。

最后,粗铜通过电解精炼,得到纯铜。

现在,题目问滤液E是什么化学物质。根据上面的分析,滤液E应该是含有亚铁离子的溶液,可能还有未反应的其他离子。具体来说,可能是硫酸亚铁溶液,因为前面步骤中使用了硫酸,而且铁和铜离子反应生成铜和亚铁离子,如果滤液C是硫酸铜溶液,那么滤液E就是硫酸亚铁溶液。

不过,我需要更确切地知道滤液C的成分。黄铜矿焙烧后生成的固体B,主要包含氧化铜和氧化铁。用水浸取,氧化铜可能溶解形成铜离子,而氧化铁不溶,成为滤渣D。所以滤液C应该是含有铜离子的溶液,可能还有其他离子。

加入铁粉后,铁可以置换出铜,生成铜和亚铁离子。所以滤液E应该是含有亚铁离子的溶液,可能是硫酸亚铁。

不过,我有点不确定,因为可能还有其他离子存在。比如,如果焙烧过程中有硫酸铵参与反应,可能生成其他盐类。

也许我应该具体写一下可能发生的化学反应方程式,来更清楚地理解这个过程。

首先,黄铜矿CuFeS₂和硫酸铵一起焙烧,通入空气,可能发生以下反应:

4CuFeS₂ + 2(NH4)2SO4 + 11O2 → 4CuSO4 + 2Fe2O3 + 4NH3 + 2H2O

这个反应是猜测的,可能不太准确,但大致意思是黄铜矿氧化生成铜盐、铁氧化物,硫酸铵分解生成氨气和硫酸氢铵,再分解生成氨气和水等。

高温混合气主要含氨气,用硫酸吸收,得到硫酸铵和硫酸氢铵的混合物,也就是溶液A。

固体B是Fe2O3和CuO的混合物,可能还有其他杂质。

固体B用水浸取,CuO和水反应生成Cu(OH)2,然后Cu(OH)2溶解形成铜盐,可能是硫酸铜,如果用水浸取的话,可能形成碱式盐等,不太确定。

或者,可能有其他酸存在,比如前面生成的硫酸。

这个步骤有点模糊,可能需要更多信息来确定滤液C的成分。

假设滤液C是硫酸铜溶液,那么加入铁粉后,发生反应:

Fe + CuSO4 → FeSO4 + Cu

这样,滤液E就是硫酸亚铁溶液。

如果滤液C中还有其他金属离子,铁粉也可能将它们置换出来,但根据流程图,主要目的是提铜,所以可能滤液C主要是硫酸铜。

然后,粗铜电解精炼,阳极是粗铜,阴极是纯铜,电解质是硫酸铜溶液,通过电解,阳极的铜和杂质溶解,阴极析出纯铜,实现精炼。

所以,滤液E应该是硫酸亚铁溶液。

不过,我有点疑惑,为什么滤液E单独列出来,而不是直接作为废物处理。可能有回收利用的价值。

或者,滤液E可能是含有铁盐的溶液,可以循环使用或者进一步处理。

总之,根据流程图和我的分析,滤液E应该是硫酸亚铁溶液。

为了确认这一点,我可以再检查一下流程。

黄铜矿→粉碎→与硫酸铵混合→通空气焙烧→得到高温混合气和固体B

高温混合气主要含氨气,用硫酸吸收得到溶液A(可能是硫酸铵和硫酸氢铵)

固体B用水浸铜→得到滤液C(假设是硫酸铜)和滤渣D(可能是氧化铁等不溶物)

滤液C中加入过量铁粉→置换出铜,得到粗铜和滤液E(硫酸亚铁)

粗铜电解精炼→得到纯铜

看起来逻辑上是通的。

所以,滤液E是硫酸亚铁。

不过,题目可能希望更确切的答案,比如具体是哪种铁盐溶液。

或者,可能需要根据具体的化学反应来确定滤液E的成分。

也许我应该更详细地写出每个步骤的化学反应方程式。

首先,黄铜矿CuFeS₂和硫酸铵一起焙烧,通入空气,可能发生以下反应:

4CuFeS₂ + 2(NH4)2SO4 + 11O2 → 4CuSO4 + 2Fe2O3 + 4NH3 + 2H2O

这个反应可能不太准确,因为硫可能生成二氧化硫等。

更准确的反应可能是:

4CuFeS₂ + 2(NH4)2SO4 + 17O2 → 4CuSO4 + 2Fe2O3 + 4SO2 + 4NH3 + 6H2O

不过,具体反应可能更复杂,涉及多个步骤。

高温混合气主要含氨气,用硫酸吸收:

NH3 + H2SO4 → NH4HSO4

生成硫酸氢铵,如果氨气过量,还会生成硫酸铵:

NH3 + H2SO4 → (NH4)2SO4

所以,溶液A可能是硫酸氢铵和硫酸铵的混合物。

固体B是Fe2O3和CuO的混合物,可能还有其他杂质。

固体B用水浸取,CuO和水反应生成Cu(OH)2,然后Cu(OH)2溶解形成铜盐,可能是碱式硫酸铜等,具体取决于pH和条件。

可能需要加入酸来促进铜的溶解,比如硫酸,形成硫酸铜溶液。

如果这样,滤液C就是硫酸铜溶液,滤渣D是不溶的氧化铁等。

然后,滤液C中加入过量铁粉,发生反应:

Fe + CuSO4 → FeSO4 + Cu

这样,滤液E就是硫酸亚铁溶液。

所以,滤液E是硫酸亚铁。

不过,我需要确认一下,是否还有其他可能。

比如,如果滤液C中还有其他金属离子,加入铁粉后,铁可能将它们也置换出来,但根据流程图,主要目的是提铜,所以可能滤液C主要是硫酸铜。

另外,滤液E可能含有过量的铁粉,需要过滤除去,得到澄清的硫酸亚铁溶液。

可能还需要调节pH等步骤来纯化滤液E,但根据流程图,没有显示这些步骤。

总之,根据现有的信息和逻辑推理,滤液E应该是硫酸亚铁溶液。

所以,答案是硫酸亚铁。

不过,题目可能希望用化学式来表示,即FeSO4。

或者,可能需要考虑水合物,如FeSO4·7H2O。

但根据流程图,滤液E是溶液,所以写FeSO4即可。

综上所述,滤液E是硫酸亚铁。

**答案**

硫酸亚铁

  • 示例2 请解答这道题

推理过程差不多8k个字符,为了节省空间,直接截图吧:

自己也在多模态抽取任务上面尝试了一下,整体感觉就是推理过程很强,不过模型生成的答案较长,同时也加了一些约束,比如政治领域做了拒绝回答。

模型局限性

QVQ-72B-Preview 是由 Qwen 团队开发的一个实验性研究模型,专注于提升视觉推理能力。虽然它展现出了超出预期的性能,但仍有几个需要注意的局限性:

  1. 语言混合和代码切换:模型可能会混合不同语言或意外地在语言之间切换,影响回复的清晰度。
  2. 递归推理循环:模型可能会陷入循环推理模式,导致回复冗长甚至没有得出最终的答案。
  3. 安全和伦理考虑:模型需要加强安全措施以确保可靠和安全的性能,用户在部署时应当谨慎。
  4. 性能和基准测试局限性:尽管 QvQ 模型在视觉推理方面有所改进,但它无法完全替代 Qwen2-VL-72B 的能力。在多步视觉推理过程中,模型可能会逐渐失去对图像内容的关注,导致产生幻觉。此外,在一些基础的识别任务如人物、动植物识相比Qwen2-VL-72B并没有表现出明显的提升。
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-12-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 模型简介
  • 模型性能
  • 模型体验
  • 模型局限性
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档