腾讯混元开源图生视频模型，新增音频与动作驱动功能，开启多模态创作新时代

文章来源：企鹅号 - SoHoBlink

近日，腾讯混元大模型团队宣布重磅开源其最新研发的图生视频模型，并同步上线音频驱动、动作驱动等多项生成能力，为内容创作领域注入全新活力。

图生视频：开启视觉创作新纪元

此次开源的图生视频模型，能够根据用户输入的图片自动生成高质量、流畅的视频内容。无论是静态风景照还是人物肖像，该模型都能精准捕捉图片细节，并生成与之风格匹配的动态画面，为图片赋予生命力。

这一技术的开源，将极大降低视频创作门槛，赋能更多创作者。想象一下，只需一张照片，就能生成一段引人入胜的视频，无论是用于短视频创作、广告制作，还是游戏开发、影视特效，都将带来无限可能。

音频驱动：让声音“看得见”

除了图生视频，腾讯混元还上线了音频驱动功能。该功能可以根据输入的音频文件，自动生成与之节奏、情感相匹配的动态画面。例如，输入一段激昂的音乐，模型可以生成一段充满力量感的视觉盛宴；输入一段温柔的独白，模型则可以生成温馨治愈的画面。

音频驱动的上线，为音乐可视化、动态海报设计、个性化视频制作等领域提供了全新的创作工具，让声音不再局限于听觉，更能以视觉的形式呈现，带来更丰富的感官体验。

动作驱动：赋予角色生命力

动作驱动功能的上线，则为虚拟角色赋予了更自然的动作表现。用户只需输入动作指令，模型即可生成流畅、逼真的动作序列，并应用于虚拟角色身上。无论是虚拟主播、游戏角色，还是动画人物，都能通过动作驱动功能，展现出更生动、更富有表现力的姿态。

动作驱动功能的推出，将极大提升虚拟内容的生产效率，降低动画制作成本，为虚拟现实、元宇宙等领域的发展提供强有力的技术支撑。

开源共建，推动AI内容创作生态繁荣

腾讯混元此次开源图生视频模型，并上线音频驱动、动作驱动等能力，展现了其推动AI技术普惠化、助力内容创作生态繁荣的决心。相信随着这些技术的不断迭代和应用，未来将涌现出更多优秀的AI创作工具和作品，为人们带来更加丰富多彩的数字生活体验。

未来展望

腾讯混元大模型团队表示，未来将继续深耕多模态生成领域，探索更多AI内容创作的可能性，并持续开放更多能力，与开发者、创作者共建AI内容创作生态，共同推动AI技术的创新与应用。

相关快讯