DeepSeek-R1 会推理,GPT-4o 会看。能否让
DeepSeek-R1取得很大成功,但它有个问题——无法处理图像输入。
自2024.12,DeepSeek已发布:
我们已领略视觉语言模型(VLM)和大规模推理模型(LRM),下一个是谁?
我们需要视觉推理模型(VRM)——既能看又能推理。本文探讨如何实现它。
当前VLM 不能很好推理,而 LRM 只能处理文本,无法理解视觉信息。若想要一个既能看懂图像,又能深度推理的模型?
我是一个学生,向 LLM 提问物理问题,并附带一张图像。
就需要一个模型能同时:
就需要👉 一个大规模视觉推理模型(VRM),视觉推理模型示意图:
讨论咋训练 VRM 之前,先了解VLM(视觉语言模型)架构。
如LLaVA,Large Language and Vision Assistant(大规模语言与视觉助手),2023年底发布的知名 VLM。
LLM 通常采用 Transformer 结构,输入文本后将其转化为 token,再通过数学计算预测下一个 token。
如若输入文本 "Donald Trump is the",LLM可能预测下一 token 为 "POTUS"(美国总统)。LLM 预测过程示意图:
那VLM咋工作的?VLM不仅根据前面的文本预测输出,还会参考输入的图像。VLM 预测过程示意图:
但咋让 LLM 理解图像?
核心思路:将图像数据转换成 LLM 能理解的格式。
LLaVA论文用 CLIP 视觉编码器将图像转化为向量。然后,在编码器后添加一个可训练的线性层。图像编码示意图:
最终的视觉隐藏状态(Hv)会与文本 token 的隐藏状态拼接在一起,输入 Transformer 层,最后生成预测结果。
LLaVA 在这里使用的是 Vicuna 作为 LLM。
不过,仅仅有这个结构是不够的,模型还需要训练,才能真正理解图像内容。
LLaVA 采用了端到端微调(End-to-End Fine-tuning)的方式。
端到端微调:将整个模型视作一个黑盒,并进行整体训练。
LLaVA 端到端微调示意图:
训练时,CLIP编码器的参数通常是冻结的,只更新线性层(W)和 LLM(ϕ)的参数。LLaVA 微调过程示意图:
RL在 LLM 领域表现出色,提升了推理能力(如 RLHF 训练的 GPT-4)。若用 RL 训练 VLM,是否能打造更强的视觉推理模型?
以图像分类任务为例。
训练时,希望模型能根据图像内容,输出正确的类别标签。
数据集中的每条数据包括:图像、标题(正确答案)、问题。
可设计两种奖励机制:
<think>
,再回答 <answer>
),则额外奖励。这可鼓励模型在回答前进行推理,而不是盲目给出答案。
VLM目前在某些场景仍表现不佳,如数学和科学类问题。
如题目正确答案 2 bpm,但 GPT-4o 回答错误:
GPT-4o错误回答:
如能让 LLM 在视觉推理方面更强,或许能正确解答。期望的 VRM 结果:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。