前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >多模态大模型技术原理与实战(4)

多模态大模型技术原理与实战(4)

作者头像
顾翔
发布2024-09-10 13:02:40
820
发布2024-09-10 13:02:40
举报
文章被收录于专栏:啄木鸟软件测试

多模态大模型核心技术

1多模态的困难

困难

数据集标志困难

人工标注生成

COCO

Visual Genome

...

非工标注生成

Conceptual Captions 3M

Conceptual Captions 12M

ALT200M

ALIGN18B

LAION-400M

...

数据表征

多模态转换

2文本多模态技术

图像生成文本方法

基于模板的图像描述方法

支持向量机(SVM)

3种元索

物体

动作

场景

基于检索的图像描述方法

搜寻相似之处

基于深度学习的图像描述方法

编码器-解码器(Encoder-Decoder)模型

深度学习方法可以直接从海量数据中学习图文本的映射,并生成更精确的描述结果

框架

CNN-RNN 框架:Ryan Kiros 等人2014 年

原理

以 CNN 为图像编码器,以 RNN为文本解码器,编码器和解码器之间依靠图像的隐状态连接

GAN框架

无监督的深度学习模型

博弈式学习从未标记的数据中学习特征

结构

生成器:CNN 提取图像特征,加人噪声作为输人,使用LSTM 网络生成句子

判别器:用 LSTM 网络对句子(生成器生成的句子和真实的句子 )进行编码,与图像特征一起处理,得到一个概率值用以约束生成器的质量

3 图像多模态技术

图像生成文本

模型

OpenAl的DALL-E2和GPT4

谷歌大脑的 lmaen和Stable Diffusion

百度的文心一言

文本生成图像

基于GAN的文本生成图像方法

AlignDRAW:第一个现代文本生成图像模型,多伦多大学,Elman Mansimov等人发布,基于 Microsoft COCO 数据集训练,用于标题生成图像,属于编码器-解码器框架

基于双向循环神经网络(BiRNN)的文本处理器

有条件的绘图网络、变形的深度递归注意力写人器(Deep RecurrentAttentive Writer,DRAW)

GAN(生成对抗网络 Generative Adversarial Network)

简介:从 2016 年起,被大量应用于文图对齐的任务中,成为图像生成的新起点,博弈论

模型

GAN-NT-CLS:

左边为生成器:输入文本编码和随机噪声

右边为判别器:输人图像和文本编码

原理:判别器通过判断生成的图像与文本描述是否贴合对齐的训练文本与图像,不断提高两者的贴合度,从而达到良好的生成效果

StackGAN:两个 GAN ,Stage-I GAN和Stage-II GAN

AttnGAN

基于VAE(变分自编码器 Variational-Auto-Encoder)的文本生成图像方法

DALL-E 模型:OpenAI,2021 年。实现文本生成图像,使用GPT-3 框架和GAN框架,参数百亿

变革:2020 年之前,基于 GAN 和 VAE 处理文本生成图像任务是工业界和学术界的主流,当前主流的文本生成图像技术当属于扩散模型

扩散模型

模型

去噪扩散概率模型 (Denoising Diffusion Probabilistic Models,DDPM):自 2020 年以来,H.Jonathan 等人

Stable Diffusion模型:CompVis 研发团队

扩散模型的适用是 2022 年被称为AIGC 元年的一个重要佐证。

基于扩散模型的文本生成图像方法

介绍:2015 年被提出,定义一个马尔可夫链向数中添加随机噪声,并学习如何从噪声中构建所需的数据样本,学习知识和掌握的两个过程:顺扩散过程(X0一XT),逐步加噪声的过程且是一个生成马尔可夫链的过程即第i+1时刻Xi+1仅受前一时刻Xi的影响;逆扩散过程( XT一X0)逐步去除噪声从噪音声图片XT中还原出原图X0的过程也是一个生成马尔可夫链的过程

X0表示从真实样本中得到的一张图片

模型

去噪扩散概率模型 (Denoising Diffusion Probabilistic Models,DDPM):U-Net 框架,编码器-解码器框架范畴.

Stable Diffusion 模型:文本编码器,Transformer 的语言模型,采用自回归的编码理念,接收文本提示,生成高维的词嵌入

图像信息生成器

实现扩散模型的反向过程,去噪音生成图像的隐藏信息

图像解码器

把隐信息还原成图像

4语音多模态技术

文本生成语音

以前技术:拼接法和参数法

基于非深度学习的文本生成语音技术

隐马尔可夫模型 (HMM)

文本信息提取模块

声学特征提取模块

声学模型模块

基于深度学习的文本生成语音技术

基于GAN 的Parallel Wave GAN(PWG)

利用 GAN,无须知识蒸留、快速、小型的波形生成方法

基于GAN 的GAN-TTS

GAN-TTS 是 DeepMind 推出的一种使用 GAN 进行文本转语音的新模型具备高质量、高效率等生成特性:提出了一种名为集成判别器的方法来评估语音生成模型,随机窗口判别器 (Random Window Discriminator,RWD)

基于 VAE 的 NaturalSpeech

由微软发布的一个模型,可以生成与人类水平平齐的高质量语音

DDPM(去噪扩散概率模型 Denoising Diffusion Probabilistic Models)

浙江大学的 FastDiff:2022 年 ,JCAI( International Joint Conference on Artificial Intelligence,人工智能国际联合会议 。组成:3层降采样块和3层条件上采样块

微软的 Natural Speech 2:结合了扩散模型的概念,通过使用神经语音编将语音波形转换为连续向量,然后使用解码器重建语音波形

5 视频多模态技术

挑战

整体而言,无论是扩散文本生成视频模型还是非扩散文本生成视频模型的生成能力都比较差

主要原因:缺乏高质量的训练语料;训练成本高昂;准确性问题

文本生成视频历史

第一个发展阶段基于非扩散模型。

受影响的模型:GAN、VAE、文本预训练大型 ( GPT-3 )

模型

TGANs-C模型:微软基于GAN发布能够根据标题生成相应的视频左边为生成器前部分基于 Bi-LSTM网络的文本编码器;后部分文本特征添加噪声并进行反向卷积的生成器。右边为判别器3个 GAN。第1个判别器区别生成的视频和真实的视频的真假,保证与标题描述对应;第2个判别器区分对应的视频帧的真假,同样加人了与标题描述的匹配;第3个判别器在时序上调整前后帧的关系,保证视频的前后帧之间不会有太大的差异

混合网络结构 CVAE-GAN模型:Yitong Li等人,基于 GAN和VAE。组成:gist 生成器:用于生成景颜色及日标层次结构;video生成器:用于从文本中提取动态信息及细节信息;判别器:保障生成的视频动多样性及生成细节信息的准确性

VideoGPT:Wilson Yan 等人,基于 Transformer ,是一个生成框架,将通常用于图像生成的VQ-VAE和Transformer 模型组合起来用于文本生成视颜任务

第二个阶段主要基于扩散模型

视频扩散模型( Video Diffusion Models,VDM ):Imagen Video,1个文本编码器:将输人的文本转换为词向量表;1 个基础视频扩散模型:利用文本词向量表征来生成原始的视频;3 个SSB(空间超分辨率)扩散:提高视频的分辨率;3个TSR(时城超分辨率)扩散模型:增加视频的帧数

6 跨模态多重组合技术

模型无关的融合方法:早期融合方法;后期融合方法;混合融合方法

模型相关的融合方法

基于深度学习(主流)

基于多核学习

基于图形模型

融合技术CoDi(为可组合扩散 Composable Difiusian)

第一个阶段:给每个模态都打造一个潜在扩散模型 (Latent Diffusion Model,LDM),进行组合训练。

第二个阶段:通过在每个潜在扩散模型和环境编码器上加一个交叉注竞力模块

第三个阶段: CoDi 模型在训练完成时会拥有处理多种类型输入和输出信息的能力。

7 多模态大模型高效的训练方法

第一类训练方法:前缀调优(Prefix Tuning)和提示调优(ProTuning)

第二类训练方法:P-Tuning和P-Tuning v2

第三类训练方法(最火)低秩适配 (Low-Rank Adaptation,LORA)技术;可调整的低秩适配(Adaptive Low-Rank Adaptation,AdaLoRA)技术和量化压缩远程注意力(Quantized Long-Range Attention,QLoRA)技术

8 GPT-4多模型核心技术介绍

Transformer:编码器-解码器框架

编码器:衍生出了自编码大模型,如BERT、RoBERT和ALBERT

解码器:衍生出了自回归大模型,如GPT-1和GPT-2

整体衍生出:T5和GLM

混合专家(Mixture of Experts,MOE) 方法

多查询注意力(Multi-Query Attention,MQA):其主要思路是让关键词 (key) 和值(Val)在多个力Head)之间共享。

推测解码(Speculative Decoding):该技术利用一个较小、速度较快的模型先解码多个 Token,并将它们作为单个批次(Batch) 输人到一个大型预模型中。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档