陈沛/文虽然OpenAI展示Sora的视频生成效果吸引了大量关注,但随着近期业界开展测试和深入分析,实际效果似乎并未达到预期。
测试发现的一个主要问题是生成的视频难以在几十秒之后继续保持内容一致性,会在运动动作、物体数量等方面出现明显的错误。这个问题我在之前专栏内容中也提到过,属于目前视频生成模型的常见问题。
另一个问题是生成视频的等待时长。尽管官方没有正式说明,但根据一些人向Sora模型作者打听到的情况,等待视频生成时可以去“吃一些零食”然后回来继续等。而从我之前看过该作者2022年首发DiT模型架构论文中的模型规模来看,也能在一定程度上验证该模型架构的生成等待时间约需要几十分钟。
考虑到这些测试和分析信息,可以预想Sora模型应该不会很快向公众提供服务。因为在实际使用中,用户通常需要多次输入文本,反复调整输出内容已达到自己想要的效果。
甚至还有阴谋论者指出,OpenAI这次发布Sora视频生成效果的日期,与Google更新Gemini 1.5模型、Meta发布J-VEPA模型的日期完全重合,因此大胆猜测OpenAI选择急忙公布还在测试中的Sora,是为了抢其它AI巨头的风头。
回想2022年,OpenAI也是知道了其它竞争对手在开发AI聊天助手,因此在GPT-3.5的基础上快速开发并推出了ChatGPT聊天助手服务,结果引发了越来越多的关注,形成了先发的竞争优势。
就像当年ChatGPT的出现表明AI对于自然语言的学习掌握能力,Sora的出现所蕴含的深远变革意义绝不仅仅是生成视频,而是AI将会加速提升对视频信息的学习掌握能力。
AI视频模型通过学习、理解、生成大量视频数据中包含的视觉和空间信息,例如形状、颜色、光照效果、相对位置、运动规律等,将让AI有可能理解现实世界的复杂性,从而在机器人、自动驾驶汽车、科学研究等领域发挥更多作用。
这将进一步推动AI向人类学习的本质回归。因为我们每个人首先对世界知识的直观学习并非从文本开始,而是从观察和理解开始。
尽管现在视频模型在自回归模型和扩散模型上还面临实际问题和现实挑战,但是这个方向的发展希望已经再次燃起。我们甚至可以设想在接下来的AI系统中,视频数据将可以作为统一的信息交互接口,从而让AI系统承担更多的智能规划、分析和执行动作,开启AI应用的全新篇章。
领取专属 10元无门槛券
私享最新 技术干货