财经网科技10月24日讯,据IT之家消息,谷歌新推出了弱监督看图说话模型 SimVLM,能够轻松实现零样本学习(zero-shot)任务迁移。从文字描述图像到回答图片相关问题,模型无需微调也能样样精通。
对于一般的视觉语言预训练(VLP)模型,训练数据集中要求包含大量精准标签。而模型的任务迁移,则需要针对特定任务重新进行数据集的标签标注。
总结下来,就是标注数据集不仅耗时耗力,还不能多任务通用。
谷歌新开发的这款模型使用了弱监督学习进行模型训练,通过利用大量的弱对齐图像-文本对进行建模,简化了 VLP 的训练流程,大大降低了训练的复杂性。
SimVLM 使用前缀语言建模的单一目标进行端到端训练,并直接将原始图像作为输入。这些设置允许模型对大规模的弱标记数据集进行利用,从而能够更好地实现零样本学习泛化效果。
领取专属 10元无门槛券
私享最新 技术干货