首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

OpenAI全新发布的Sora是什么?

Sora 是 OpenAl开发的AI视频生成模型,它能够根据用户的文本描述生成长达 60 秒、1080P 高质量视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。

Sora能够创造出包含多个角色、特定动作类型以及与主题和背景相符的详细场景。这款模型不仅能理解用户的指令还能洞察这些元素在现实世界中的表现。Sora对语言有着深刻的理解,能够精准地捕捉到用户的需求,并创造出充满生命力、情感丰富的角色。此外,Sora还能在同一视频中创造出多个画面,同时保持角色和视觉风格的一致性。

一:Sora是什么

Sora是一个文本到视频的模型,由美国的人工智能研究机构OpenAI开发。Sora可以根据描述性的文本提示,生成高质量的视频,也可以根据已有的视频,向前或向后延伸,生成更长的视频。

Sora的主要功能和特点包括:

可以处理不同的视频时长、分辨率和纵横比,最多可以生成一分钟的高清视频。

使用了一个压缩网络,将原始的视频数据降维到一个潜在空间,然后用一个变换器网络,将潜在空间分割成时空块,作为输入。

使用了一个基于扩散的生成方法,从一个随机噪声开始,逐步恢复出目标视频。

可以理解自然语言,并根据语言的语义和语法,生成合理的视频内容。

可以用图片或视频作为提示,生成与之相关的视频,或者在其基础上进行修改或延续。

二、Sora 可以做什么?

Sora 的主要功能是将文本描述转化为视频内容。它能够理解并执行详细的文本指令,生成具有视觉质量和连贯性的视频,这些视频可以包含多个角色、动作和场景。

1.文本到视频生成能力:Sora能够根据用户提供的文本描述生成长达60S的视频,这些视频不仅保持了视觉品质而且完整准确还原了用户的提示语。

2.复杂场景和角色生成能力:Sora能够生成包含多个角色、特定运动类型以及主题精确、背景细节复杂的场景。它能够创造出生动的角色表情和复杂的运镜,使得生成的视频具有高度的逼真性和叙事效果

3.语言理解能力:Sora拥有深入的语言理解能力,能够准确解释提示并生成能表达丰富情感的角色。这使得模型能够更好地理解用户的文本指令,并在生成的视频内容中忠实地反映这些指令

4.多镜头生成能力:Sora可以在单个生成的视频中创建多个镜头,同时保持角色和视觉风格的一致性。这种能力对E于制作电影预告片、动画或其他需要多视角展示的内容非常有用。

5.从静态图像生成视频能力:Sora不仅能够从文本生成视频,还能够从现有的静态图像开始,准确地动画化图像内容,或者扩展现有视频,填补视频中的缺失帧。

6.物理世界模拟能力:Sora展示了人工智能在理解真实世界场景并与之互动的能力,这是朝着实现通用人工智能(AGI)的重要一步。它能够模拟真实物理世界的运动,如物体的移动和相互作用。

可以说,Sora的出现,预示着一个全新的视觉叙事时代的到来,它能够将人们的想象力转化为生动的动态画面,将文字的魔力转化为视觉的盛宴。在这个由数据和算法编织的未来,Sora正以其独特的方式,重新定义着我们与数字世界

的互动。

三:Sora底层技术先进在哪里

据OpenAI Sora技术论文介绍,Sora是一个通用的视频生成模型,可以模拟物理世界的各种现象,也可以创造出虚构的场景。Sora的目标是成为一个能够模拟任何视频数据的世界模拟器。

统一的视觉数据表示:Sora 使用视觉补丁(patches)作为其表示方式,类似于大型语言模型(LLM)中的文本标记,将所有类型的视觉数据转换为统一的表示,以便进行大规模的生成模型训练。

视频压缩网络:OpenAI训练了一个网络,该网络将原始视频压缩到一个低维空间,并将该低维空间表示分解为时空片。Sora 在这个压缩的空间片中进行训练,并生成视频。

扩散模型:Sora 是一个扩散模型,它通过预测原始“干净”的补丁来从输入的噪声补丁中生成视频。扩散模型在语言建模、计算机视觉和图像生成等领域已经显示出了显著的扩展性。

视频生成的可扩展性:Sora 能够生成不同分辨率、时长和宽高比的视频,包括全高清视频。这种灵活性使得 Sora 能够直接为不同设备生成内容,或者在生成全分辨率视频之前快速原型化内容。

语言理解:为了训练文本到视频生成系统,需要大量的视频和相应的文本标题。研究者们应用了在 DALL·E 3 中引入的重新描述技术,首先训练一个高度描述性的标题生成器,然后为训练集中的所有视频生成文本标题。

图像和视频编辑:Sora 不仅能够基于文本提示生成视频,还可以基于现有图像或视频进行提示。这使得 Sora 能够执行广泛的图像和视频编辑任务,如创建完美循环的视频、动画静态图像、向前或向后扩展视频等。

模拟能力:当视频模型在大规模训练时,它们展现出了一些有趣的新兴能力,使得 Sora 能够模拟物理世界中的某些方面,如动态相机运动、长期一致性和对象持久性等。

互联互通社区

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OaaiN6kt2HHpupxFLYhqM3Fg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券