首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

腾讯混元开源图生视频模型,新增音频与动作驱动功能,开启多模态创作新时代

近日,腾讯混元大模型团队宣布重磅开源其最新研发的图生视频模型,并同步上线音频驱动、动作驱动等多项生成能力,为内容创作领域注入全新活力。

图生视频:开启视觉创作新纪元

此次开源的图生视频模型,能够根据用户输入的图片自动生成高质量、流畅的视频内容。无论是静态风景照还是人物肖像,该模型都能精准捕捉图片细节,并生成与之风格匹配的动态画面,为图片赋予生命力。

这一技术的开源,将极大降低视频创作门槛,赋能更多创作者。想象一下,只需一张照片,就能生成一段引人入胜的视频,无论是用于短视频创作、广告制作,还是游戏开发、影视特效,都将带来无限可能。

音频驱动:让声音“看得见”

除了图生视频,腾讯混元还上线了音频驱动功能。该功能可以根据输入的音频文件,自动生成与之节奏、情感相匹配的动态画面。例如,输入一段激昂的音乐,模型可以生成一段充满力量感的视觉盛宴;输入一段温柔的独白,模型则可以生成温馨治愈的画面。

音频驱动的上线,为音乐可视化、动态海报设计、个性化视频制作等领域提供了全新的创作工具,让声音不再局限于听觉,更能以视觉的形式呈现,带来更丰富的感官体验。

动作驱动:赋予角色生命力

动作驱动功能的上线,则为虚拟角色赋予了更自然的动作表现。用户只需输入动作指令,模型即可生成流畅、逼真的动作序列,并应用于虚拟角色身上。无论是虚拟主播、游戏角色,还是动画人物,都能通过动作驱动功能,展现出更生动、更富有表现力的姿态。

动作驱动功能的推出,将极大提升虚拟内容的生产效率,降低动画制作成本,为虚拟现实、元宇宙等领域的发展提供强有力的技术支撑。

开源共建,推动AI内容创作生态繁荣

腾讯混元此次开源图生视频模型,并上线音频驱动、动作驱动等能力,展现了其推动AI技术普惠化、助力内容创作生态繁荣的决心。相信随着这些技术的不断迭代和应用,未来将涌现出更多优秀的AI创作工具和作品,为人们带来更加丰富多彩的数字生活体验。

未来展望

腾讯混元大模型团队表示,未来将继续深耕多模态生成领域,探索更多AI内容创作的可能性,并持续开放更多能力,与开发者、创作者共建AI内容创作生态,共同推动AI技术的创新与应用。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O48M5FKgYsOy0n2XG-9g6XJw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券