20多年前,我逃课去看《黑客帝国》。
墨菲斯说:欢迎来到真实世界。
一下子梦醒了,回到教室的时候,老师在讲国有企业改制过程中的顶层设计问题。
你看到的,就是真实吗?
时光荏苒,终于忘记了很多人,终于忘记了很多事。
一觉醒来,AI圈里沸腾了,大家发现现实不存在了。
OpenAI发布视频大模型的预告,能够生成60秒完整视频。
这个大模型叫Sora。
作为一个AI工具的重度使用者,平均每天使用生成式AI和AI绘画工具超过2小时。
对Sora最感兴趣的一点,是它生成的画面不崩、不闪。
事实上,现阶段开源AI绘画工具也能生成视频,但大多数在4秒之内,而且最大的缺点是脸崩和闪烁。
脸崩的原因是很多大模型很难处理大幅画面的时候的面部细节,闪烁的原因是现阶段大模型都是逐帧生成画面,然后拼成视频,每一帧的画面细节有变化的时候就会闪烁。
从这一点上来说,在Sora面前,目前所有的视频大模型都得跪下。
有分析人士认为,Sora使用了游戏引擎。我也认同这一观点,使用游戏引擎能够巧妙的绕开逐帧生成画面再拼接的弊端。
英伟达高级科学家Jim Fan对Sora发表了一些自己的观点:
Sora是一个数据驱动的物理引擎。它是对许多世界的模拟,无论是真实的,还是虚构的。该模拟器通过去噪和梯度学习方式,学习了复杂的渲染、「直观的」物理、长期推理和语义理解。
如果Sora使用虚幻引擎5接受过大量合成数据的训练,我不会感到惊讶的。必须如此!
在ChatGPT3.5推出之前,ChatGPT发布了几个版本,虽然表现惊艳,但能力有限,也是不温不火。3.5一炮走红后,再接再厉推出了付费的4.0版本。
不管多么惊人,ChatGPT至少是有“前奏”的,它的基本原理和运行逻辑,以及进展,对AI感兴趣的人,都是有了解的。
Sora的出现有点措手不及,就在昨天的时候,大家还在为AI视频去闪问题绞尽脑汁,毕竟大家都看过基于现有技术水平的论文,知道瓶颈在哪里,知道上限在哪里。Sora就像跳出了人类科技,突然到来的天顶星科技。
但是!
如果使用了游戏引擎(比如虚幻5)的话,这一切又都可以理解了。只能说之前的AI视频走的是AI绘画的老路,想当然的认为 视频=绘画逐帧叠加,Sora巧妙的换了个路线,依然是ChatGPT的逻辑,用数据去驱动游戏引擎,再由游戏引擎生成画面。
这样的技术并没有超越现有科技水平,只是骨骼惊奇,之前确实没有人想象到。
ChatGPT 先把接收到的文字转化成代码,再用代码驱动游戏引擎生成画面。
随着Sora的成功,后续会有越来越多的AI大模型接入游戏引擎,会对已有绘画大模型造成降维打击!
至于视频行业、传统影视业,更是影响深远。
今年春晚任素汐那首歌《枕着光的她》,有一段陶瓷小人跳舞的镜头,是用AI画的。
而且是用Stable Diffusion + ControlNet + AnimateDiff + LCM + IPAdapter,基于SD1.5。
幸亏今年春节来的早!
要是晚几天,随着生成式AI和游戏引擎技术的迅速迭代成长,甚至连任素汐本人都可以用AI画出来了!
不过,按照OpenAI的尿性,大概率是不开源的,但在路线图既定的情况下,其他AI公司迅速跟上并不算难。
压力最大的可能是Midjourney,当生成式AI+游戏引擎成为标配,Midjourney转型难度加大。
可以说,不做AI大模型的电影公司,都得死。
领取专属 10元无门槛券
私享最新 技术干货