首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

OpenAI发布Sora模型,一句话生成真实视频

OpenAI近日宣布推出其最新研发成果——Sora模型,这一开创性的AI技术能够根据用户的文本指令生成长达一分钟的高质量视频。

Sora模型标志着人工智能在理解和模拟物理世界动态场景方面取得了重大突破,它不仅能够理解复杂的视觉元素和情感表达,还能创建具有多角色、精确运动及主题背景细节的连贯场景。

Sora的核心能力在于将文本提示转化为逼真的视觉叙事,通过训练模型理解并表现物体在现实环境中的存在方式与相互作用。例如,模型可以根据文字描述创建一个角色咬饼干的场景,尽管目前该模型在处理复杂物理因果关系时可能还不够精确,如饼干被咬后未能显示出应有的咬痕。

此外,Sora还具备生成多个连续镜头的能力,保持角色的一致性和视觉风格的统一。然而,当前模型在空间细节的理解上尚存挑战,如左右方向的混淆以及随时间推移事件的准确描绘,比如遵循特定摄像机轨迹的动作序列。

为了确保Sora的安全性和负责任的使用,OpenAI正采取一系列严谨的安全措施。公司内部的红队成员正在进行对抗性测试,以评估模型在生成内容中可能出现的错误信息、仇恨内容和偏见问题。

同时,OpenAI正在开发检测误导性内容的新工具,包括可以识别由Sora生成视频的分类器,并计划采用C2PA元数据标准,以便在产品部署时增强透明度。

在安全策略方面,OpenAI借鉴了DALL-E 3产品的既有做法,例如利用文本分类器筛选违反政策的输入提示,并建立强大的图像分类器审查生成视频的每一帧,以确保符合使用政策。未来,OpenAI还将继续与全球范围内的政策制定者、教育工作者和艺术家合作,探讨新技术的积极应用案例和潜在风险。

从技术层面看,Sora采用了扩散模型框架,从类似静态噪音的初始状态逐步迭代,创造出清晰连贯的视频内容。值得一提的是,Sora能够在一次性生成整个视频的同时,也能扩展视频长度,即使主体短暂离开视线也能保持一致性。与GPT模型共享相似的变压器架构,Sora展现出卓越的可扩展性能。

通过将视频和图像分解为“补丁”(类似于GPT中的令牌),OpenAI团队成功地在多样化的视觉数据集上训练了扩散变换器,涵盖了不同的持续时间、分辨率和宽高比。Sora还借鉴了DALL-E 3的重述技术,使得模型能更精准地遵循用户提供的详细文本说明来生成视频内容,甚至可以从静止图像出发创作出动画效果,对原始图像的细微之处进行忠实再现。

Sora模型的诞生不仅是对现有技术的显著提升,更是朝着实现通用人工智能(AGI)的重要一步。OpenAI坚信,Sora所展示的理解和模拟现实世界的能力将成为构建真正智能系统的关键基石。

随着Sora模型的发布,OpenAI再次展示了其在人工智能领域的领先地位,同时也提醒业界关注此类先进技术所带来的伦理和社会责任问题。OpenAI将持续从真实世界的使用案例中学习,致力于打造越来越安全可靠的人工智能产品和服务。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OgctPV-epBBoERELxGcWAJXw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券