深度学习的发展轨迹,其实是一条不断拓宽「输入维度」的曲线。 从最早的 图像识别(CNN) 到 语音识别(RNN、CTC),再到 自然语言处理(Transformer),每一个阶段都代表了人类在不同模态上取得的突破。
但人类的智能并不是分裂的。 我们看图会说出图里的东西,我们听到声音能联想到场景,我们读到文字会浮现画面。 这种「跨模态」的联想能力,正是人工智能长期以来所追求的终极目标之一。
而多模态学习(Multimodal Learning),正是连接这些孤立感知模块的桥梁。 它试图让模型同时理解文字、图像、音频、视频,甚至动作与物理世界。
在这一篇,我们会系统地讲清楚:
本文不讲神话,也不谈玄学,而是希望帮你从工程与直觉的角度,真正理解“多模态”的价值与难点。
“模态”(modality)指的是信息的来源类型。 例如:
人类大脑会自动融合这些信息:当你看到「一只狗」的图片,同时听到“汪汪”的声音,你就能在语义层面上建立联系。
计算机的目标就是复现这种跨模态关联。 传统模型通常只理解一种模态,例如:
而多模态学习希望:
在一个统一的模型中,让这些模态「说同一种语义语言」。
早期融合在输入阶段就把不同模态的数据混合。 例如将图片的卷积特征与文字的词向量拼接在一起,然后输入同一个神经网络。
伪代码示意:
# 图像编码
img_feat = CNN(image)
# 文本编码
txt_feat = Embedding(text)
# 融合输入
input_feat = concat(img_feat, txt_feat)
# 统一网络处理
output = Transformer(input_feat)
优点:
缺点:
每个模态先独立编码,再在高层语义上进行融合。
例如图像经 ViT,文本经 BERT,最后在语义空间对齐。
img_feat = ViT(image)
txt_feat = BERT(text)
# 融合阶段
joint = MLP(concat(img_feat, txt_feat))
优点:
缺点:
这是现代多模态模型的核心思想。 代表作是 CLIP(Contrastive Language-Image Pretraining)。
CLIP 的核心机制:
伪代码表示:
# 图像与文本的语义嵌入
img_embed = f_image(image)
txt_embed = f_text(text)
# 余弦相似度矩阵
sim = cosine_similarity(img_embed, txt_embed)
# 对比损失
loss = -log(exp(sim[i][i]) / sum(exp(sim[i])))
CLIP 的成功之处在于:
CLIP 是 OpenAI 2021 年推出的模型。它用 4 亿对图文训练,让图像与语言共享语义空间。
关键思想:
“让模型学会看图像时,用语言去描述。”
训练完成后,CLIP 不需要特定任务,只要输入文本提示,就能完成分类。
例如:
给定一张猫的图片 文本候选:“a photo of a cat”,“a photo of a dog” 模型输出哪一个更匹配。
这就是 Zero-Shot Learning 的雏形。
Google 的 ALIGN 扩展了 CLIP 的训练规模,改进了噪声过滤与模型结构。 而 BLIP / BLIP-2 则在 CLIP 的基础上加入了「图文生成」能力,让模型不仅能匹配,还能“说出来”。
BLIP-2 的关键创新是「Q-Former」,一个轻量 Transformer,用于将视觉特征转化为语言模型可以理解的形式。
CLIP 解决了「图 ↔ 文」的对齐问题,但仍然是分离编码器。 Flamingo(DeepMind) 引入「跨模态注意力(Cross-Attention)」,让语言模型能在生成过程中动态引用视觉特征。
而 GPT-4V(GPT-4 Vision) 则是更进一步的统一: 图像直接作为模型输入,与文本一同进入 Transformer,模型能回答、描述、推理图像内容。
这标志着:
文本模型已经不是“语言模型”,而是“多模态世界模型”。
工程实践上,通常采用:
多模态的应用正在全面渗透:
未来趋势可以总结为三个方向:
当下的 GPT、Claude、Gemini 已经能看图、听音、理解视频。 多模态学习让人工智能第一次有了“感知世界”的雏形。
语言曾是人类智慧的载体, 而多模态智能,正在让机器也拥有“感知 + 理解 + 表达”的完整链条。
文字只是认知的外壳,感知才是智能的灵魂。