首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Google VideoPoet多模态视频生成器:​视觉到听觉的颠覆,PIKA和Runway最大竞争对手

“ Google最近推出了VideoPoet,它是一个全能的大型语言模型(LLM),一种可以将任何自回归语言模型或大型语言模型转换为高质量视频生成器的模型方法。能够理解并处理多模态信息,将其融入视频创作,它能产生各种大型、有趣且高保真的动作,展示了视频生成的最新水平”

一站式视频生成体验

VideoPoet能够执行包括文本到视频、图像到视频、视频风格化、视频内部和外部填充、视频到音频转换等多种任务。

它可以通过简单的组件,将图像、视频和音频片段转换成统一词汇表中的一系列离散代码,从而与基于文本的语言模型兼容,实现多模态融合。

简单点说就是:

文字到视频:只需一段描述,VideoPoet便能将其变成生动的视频。

风格化与修复:赋予视频新的风格,修复旧视频,甚至扩展视频内容。

从视觉到听觉:不仅生成视频,还能从视频中提取并创造音频。

(根据视频生成音频)

实例展示:

VideoPoet 模型默认生成的是竖屏方向的视频,这主要是为了适应短视频内容的需求。为了展示其能力,Google Research 团队制作了一部由 VideoPoet 生成的短片,内容是由许多短片段组成的。

为了制作这部短片,团队首先使用 Bard 编写了一个关于一只旅行的浣熊的短故事。Bard 不仅提供了故事的场景分解,还列出了伴随每个场景的提示。这些提示被用来指导 VideoPoet 生成与故事相匹配的视频片段。

这个过程展示了 VideoPoet 在视频内容创作方面的多样性和创造力。通过结合不同的技术和工具,如 Bard 的故事创作能力和 VideoPoet 的视频生成能力,可以创造出富有想象力和吸引力的视觉内容。 这种方法为视频制作和故事叙述提供了新的可能性,尤其适合制作短视频和社交媒体内容。

VideoPoet的主要特点

1、广泛的视频生成任务:VideoPoet 能够处理多种视频生成任务,包括文本到视频、图像到视频、视频风格化、视频修复和扩展、以及视频到音频。

2、多模态学习能力:与主要基于扩散的视频生成模型不同,VideoPoet 作为一个大型语言模型,在多种模态上展现出卓越的学习能力,包括语言、代码和音频。

3、集成多种视频生成能力:VideoPoet 在单一的大型语言模型中集成了多种视频生成能力,而不是依赖于针对每项任务单独训练的组件。

4、任务设计:VideoPoet 能够根据不同的任务需求(如文本到视频、图像到视频等)调整其生成过程。每种任务类型都由特定的任务标记指示,以引导模型进行相应的视频生成。

5、长视频生成:通过连续预测的方式,VideoPoet 能够生成更长的视频。它通过在每一步中仅考虑视频的最后一部分(例如最后1秒),然后预测接下来的内容,从而实现视频的延伸。

6.、交互式视频编辑:允许用户交互式地编辑视频,例如改变视频中对象的动作或行为。这是通过在输入视频的基础上添加新的文本提示来实现的。

7、图像到视频的控制:能够根据文本提示将输入图像动画化,编辑其内容。

8、相机运动控制:通过在文本提示中添加特定的相机运动描述(如缩放、平移、弧形拍摄等)它能够在生成的视频中实现这些相机运动。

传送门:

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OINVWucnd3VpPYEMf7a56kBQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券