首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

OpenAI视频模型“秒杀”一众模型,AI创业是否难逃大厂降维碾压!

中国春节期间, OpenAI再次推出了另一个让人意想不到的产品,它的第一个文字生成模式—— Sora,也就是 Sora。

Sora的特效已经在业内掀起了轩然大波,它不仅可以通过文字来营造逼真的画面,还可以制作出60秒的视频。许多人都在期待着新的 OpenAI,就像是在等待着乔布斯的到来,因为他们总是能看到一些出人意料的科技。

从 Chat GPT,到E3,再到 Sora, OpenAI的独特之处,可以用两个字概括:“技术的想象”和“工程”,远远超过了“黑科技”。与此同时,那些曾经红极一时的 AI视频初创公司,也都被打得落花流水,最多也就是4秒,根本无法和 Sora的60秒相比。就像 OpenAI、谷歌这样的大公司,“地球上一天的时间,人工智能就已经发展了上千年”,分分钟就能把人工智能公司给干趴下。这也让人忍不住感慨, AI创业就是这么困难,什么技术护城河,产品护城河,都还在吗?会不会一夜之间就被大厂飞速发展的技术推翻?

一、想象与工程的爆炸,让产生式视频的发展趋于成熟

在 Sora之前,我们所见的很多有声视频技术都还没有达到技术融合,其主要的技术途径就是用不同的方法让一幅画面“动”起来,就像是静止的动画一样。从用户的实际需要来看:视频中各个画面间的连贯和自然是最重要的,即各个画面间的语义信息能够无缝连接。

从 Sora在行业内引起的热议就可以看得出来,根据需求来开发相应的技术解决方案或产品,要比从技术可实现的角度来开发产品要好得多。

现在让 OpenAI发布关于 Sora的所有技术细节是不切实际的,所以开放源码将会交给其它的团队。但在 OpenAI的官方说明中, Sora和其他的文思视频不同,它可以同时预测多个场景,同时保证视频的主体不会发生变化。

从技术创新上来说, Sora的技术与方法并不算太过惊世骇俗,也不能算是从无到有的创新,虽然也有类似的研究,但总体来说,项目还是很成功的。这就是 Sora很有创意的地方,他们在画面上做出了突破,将视频的数量限制在了最大。

这和文生的录像技术难以集中,项目难以实施有很大的关系。将 Transformer技术引入到文本传播模型中,使其具有更高的应用价值。这也就意味着,到了2024年, Transformer+Diffusion模型,才会真正的合二为一。这也是为什么 Sora一上线就得到了很多人的认可,因为它的文字模型具有很强的一致性和可伸缩性,能够从多个层面提高用户对文生视频的感知能力,从而使其更靠近商业奇点。

OpenAI已在 Chat GPT、DALLE-3等项目上取得了重大突破,此次又将上述研究成果进行了整合,使其具备了最大的工程性能。

二、好莱坞风格的商业电影,正在向普通人靠拢

尽管在2023年及之前,尽管有 Runway、 PiKa等现象级产品涌现,但整体上,将传播模式与语言模式结合起来的研究尚未成为业界的“重中之重”。

在不久的将来,伴随着文字视频的普及,制作视频的门槛也会越来越低,这将有助于我们进行更多的工程实践,达到好莱坞水平的视频解决方案。

特别地,在以往的视频制作前期设计、中期拍摄、后期制作的过程中,逐渐地将重心转移到了后期制作上,特别是新的视频元素的持续生成,使得前期设计与中期拍摄的工作流发生了很大的改变,出现了新的工具和工作流程。

最后,将会被运用到各种 C端的消费场景中,例如商品广告、剧情片等。特别是在视觉艺术,设计师,电影制作等领域,它能为这一领域的从业者提供一种快速的建模与可视化的方法,从而节约大量的时间与费用。

这一点,给短视频产业提供了很大的想象力,一般人或许不能用 Sora拍出好莱坞的大片,但60秒钟的高品质短片,却是唾手可得。特别是那些对内容逻辑要求较低,对科幻题材的探索,能帮助创作出个性化的内容。

三、与其指望Sora,还不如期待AI视频编辑软件的流行

OpenAI更多的是充当先锋,擅长开山辟路,而不是将注意力放在其他方面。

在单一产品上取得了突破性进展, Sora是一个里程碑。但考虑到商业需要以及混剪辑工作流程的提高, Sora自身的价值仍然存在争议。

一个60秒钟的视频,想要成为下一个董宇辉和李佳琪,那是不可能的,而且,这也是一件非常困难的事情,毕竟,他们还需要很长的一段时间。

就拿短视频来说,是一遍又一遍地修改提示语,还是用视频编辑软件来调整素材?

很明显,我们对 Sora,或者说,希望能尽快地更新和添加人工智能工具的视频剪辑软件,以实现真正的商业效率提高。另外,基于文本提示的视频自动生成也面临着理解上的偏差,这个问题不但困扰着文心,而且在应用 ChatGPT时也没有得到很好的解决。

就算 Sora完全开放,一般人想要制作出和这次演示一样的 demo,也是一件非常困难的事情。最后, Sora能否被广泛使用,取决于它自身能否提高人们的生产力。

这究竟是一场买方秀,还是一场卖方秀,尚需时日方能见分晓。

四、视频制作行业,其它公司是否无胜算?

答案是否定的。

各大科技公司,都在不断地投入到人工智能的研究中。

Meta几乎是在同一时间推出了V-JEPA,这使得他们无需经过调整就能适用于一系列要求世界性的任务。另外,V-JEPA算法是基于特征空间的自主学习,具有更高的学习效率。究竟哪个方向才是最后的万能人工智能,现在还不清楚。

谷歌也于同期发布了其 Gemini1.5,该1.5能够支持10,000个 token的上下文,从而使大型模式的输出更为一致和实用。多模融合的更顺畅,与 OpenAI的工程设计不相上下。

像Runway、 Pika这样的纯文字类产品,在人工智能的时代,也是有一席之地的。Sora采用了 Transformer+ Diffusion两种模式,从模型结构上来说,如果按照 Transformer作为标准,还是以《Transformer》为标准,那么还是以《Diffusion》为核心,前者的可能性更大。

没有让人望尘莫及的技术,只有不断攀升的工业热潮。

Sora虽然一次就能制作出数十秒长的视频,但在实际使用中,如果不能保证用户可以通过微操作将其融入到自己的工作流中, Sora的影响力很可能会随着时间的推移而逐渐消失。

即便是在 ChatGPT发布一年之后,仍有相当数量的用户不会用它。这也给开源社区制造了一个追赶的窗口,而文生文和文生视频模式的模块化结合,会不会出现像 iPhone这样的私有智能装置?这样就可以让更多的用户使用这款软件,从而形成一种开放的、小型的、小型的模型+移动的模式,给整个智能手机带来一场革命。

新的产品总是不断地涌现出来,技术的传播也只是刚刚起步,没有哪一家企业会因为一项新技术的问世而“猝死”。

五、人工智能大爆发,平民也能成为“领航员”

对于一般人来说,能不被“遥遥领先”、“王炸”这样的字眼洗脑,就已经很不容易了,更别说保持理智了。在 Sora病毒肆虐的这段时间里,一般人需要做三件事。

1.将其应用于您所熟知的方案

与焦虑相反的是特殊性。只有通过 Sora这样的人工智能技术,将其应用到实际的工作中,我们才能真正感受到,人工智能将会在多大程度上代替我们的工作。也是为了让我们更好的了解到,人工智能是如何应用到我们的问题中来的。对新技术、新应用,初期用户最大的好处,就是能将其价值提前挖掘出来,从而提升生产力与生产效率。如果你只是想体验一下,让 AI给你一个问题,让你判断一下人工智能是不是真的有智慧,或者是有缺陷,那你就会迷失在自己的安乐窝里。

2.尝试一种新的生活方式

瓦特发明了蒸汽机,但最有价值的却是那些用它来制造的商人。汽车极大地提高了交通运输的效率,而电子商务则将整个交通系统提升到了一个新的高度,以至于很多网络平台都开始使用第二天送达。

莎拉展现出了她所有的超能力,但是她还缺一个真正的发现她的人。伯乐公司不仅要了解人工智能工具的种种优缺点,更要对自己的商业系统有深入的了解与认识,并利用人工智能技术对商业过程进行整合与重构。而随着时间的推移,越来越多的新技术和人工智能结合在一起,“侵入”到了各个行业。

3.作为一名“领航员”在游戏中扮演一个角色

随机应变,才是正确的选择。

回顾工业革命,由于机械的发明,熟练的、高级的纺织业工人失去了工作,而不是普通的纺织业工人。之所以如此,那是因为工业革命将专家的经验固化在了一个体系之内,让那些原本没有任何经验的人,在机械和系统的作用下,也可以发挥出远超熟练人员的水平。与此类似,波士顿顾问公司近来把顾问分成高低两类,并采用GPT-4,最后的效果是,初级咨询师的成绩提升了43%,高级咨询师的提升只有17%。高低两组之间的表现差距由22%降至4%。

与其急于适应他人所制订的新制度,还不如借助先行者的优势,去适应和拥抱变化,做一名规则的“领航员”。对 Sora的出现进行了梳理,在讨论中提出了几个关于“创新”的想法,以供各位参考:

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Oz7rQVkTKzuPP93MGcoz41kw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券