文章/答案/技术大牛

发布

OpenAI视频模型“秒杀”一众模型，AI创业是否难逃大厂降维碾压！

文章来源：企鹅号 - 佳佳观点

中国春节期间， OpenAI再次推出了另一个让人意想不到的产品，它的第一个文字生成模式—— Sora，也就是 Sora。

Sora的特效已经在业内掀起了轩然大波，它不仅可以通过文字来营造逼真的画面，还可以制作出60秒的视频。许多人都在期待着新的 OpenAI，就像是在等待着乔布斯的到来，因为他们总是能看到一些出人意料的科技。

从 Chat GPT，到E3，再到 Sora, OpenAI的独特之处，可以用两个字概括：“技术的想象”和“工程”，远远超过了“黑科技”。与此同时，那些曾经红极一时的 AI视频初创公司，也都被打得落花流水，最多也就是4秒，根本无法和 Sora的60秒相比。就像 OpenAI、谷歌这样的大公司，“地球上一天的时间，人工智能就已经发展了上千年”，分分钟就能把人工智能公司给干趴下。这也让人忍不住感慨， AI创业就是这么困难，什么技术护城河，产品护城河，都还在吗？会不会一夜之间就被大厂飞速发展的技术推翻？

一、想象与工程的爆炸，让产生式视频的发展趋于成熟

在 Sora之前，我们所见的很多有声视频技术都还没有达到技术融合，其主要的技术途径就是用不同的方法让一幅画面“动”起来，就像是静止的动画一样。从用户的实际需要来看：视频中各个画面间的连贯和自然是最重要的，即各个画面间的语义信息能够无缝连接。

从 Sora在行业内引起的热议就可以看得出来，根据需求来开发相应的技术解决方案或产品，要比从技术可实现的角度来开发产品要好得多。

现在让 OpenAI发布关于 Sora的所有技术细节是不切实际的，所以开放源码将会交给其它的团队。但在 OpenAI的官方说明中， Sora和其他的文思视频不同，它可以同时预测多个场景，同时保证视频的主体不会发生变化。

从技术创新上来说， Sora的技术与方法并不算太过惊世骇俗，也不能算是从无到有的创新，虽然也有类似的研究，但总体来说，项目还是很成功的。这就是 Sora很有创意的地方，他们在画面上做出了突破，将视频的数量限制在了最大。

这和文生的录像技术难以集中，项目难以实施有很大的关系。将 Transformer技术引入到文本传播模型中，使其具有更高的应用价值。这也就意味着，到了2024年， Transformer+Diffusion模型，才会真正的合二为一。这也是为什么 Sora一上线就得到了很多人的认可，因为它的文字模型具有很强的一致性和可伸缩性，能够从多个层面提高用户对文生视频的感知能力，从而使其更靠近商业奇点。

OpenAI已在 Chat GPT、DALLE-3等项目上取得了重大突破，此次又将上述研究成果进行了整合，使其具备了最大的工程性能。

二、好莱坞风格的商业电影，正在向普通人靠拢

尽管在2023年及之前，尽管有 Runway、 PiKa等现象级产品涌现，但整体上，将传播模式与语言模式结合起来的研究尚未成为业界的“重中之重”。

在不久的将来，伴随着文字视频的普及，制作视频的门槛也会越来越低，这将有助于我们进行更多的工程实践，达到好莱坞水平的视频解决方案。

特别地，在以往的视频制作前期设计、中期拍摄、后期制作的过程中，逐渐地将重心转移到了后期制作上，特别是新的视频元素的持续生成，使得前期设计与中期拍摄的工作流发生了很大的改变，出现了新的工具和工作流程。

最后，将会被运用到各种 C端的消费场景中，例如商品广告、剧情片等。特别是在视觉艺术，设计师，电影制作等领域，它能为这一领域的从业者提供一种快速的建模与可视化的方法，从而节约大量的时间与费用。

这一点，给短视频产业提供了很大的想象力，一般人或许不能用 Sora拍出好莱坞的大片，但60秒钟的高品质短片，却是唾手可得。特别是那些对内容逻辑要求较低，对科幻题材的探索，能帮助创作出个性化的内容。

三、与其指望Sora，还不如期待AI视频编辑软件的流行

OpenAI更多的是充当先锋，擅长开山辟路，而不是将注意力放在其他方面。

在单一产品上取得了突破性进展， Sora是一个里程碑。但考虑到商业需要以及混剪辑工作流程的提高， Sora自身的价值仍然存在争议。

一个60秒钟的视频，想要成为下一个董宇辉和李佳琪，那是不可能的，而且，这也是一件非常困难的事情，毕竟，他们还需要很长的一段时间。

就拿短视频来说，是一遍又一遍地修改提示语，还是用视频编辑软件来调整素材？

很明显，我们对 Sora，或者说，希望能尽快地更新和添加人工智能工具的视频剪辑软件，以实现真正的商业效率提高。另外，基于文本提示的视频自动生成也面临着理解上的偏差，这个问题不但困扰着文心，而且在应用 ChatGPT时也没有得到很好的解决。

就算 Sora完全开放，一般人想要制作出和这次演示一样的 demo，也是一件非常困难的事情。最后， Sora能否被广泛使用，取决于它自身能否提高人们的生产力。

这究竟是一场买方秀，还是一场卖方秀，尚需时日方能见分晓。

四、视频制作行业，其它公司是否无胜算？

答案是否定的。

各大科技公司，都在不断地投入到人工智能的研究中。

Meta几乎是在同一时间推出了V-JEPA，这使得他们无需经过调整就能适用于一系列要求世界性的任务。另外，V-JEPA算法是基于特征空间的自主学习，具有更高的学习效率。究竟哪个方向才是最后的万能人工智能，现在还不清楚。

谷歌也于同期发布了其 Gemini1.5，该1.5能够支持10,000个 token的上下文，从而使大型模式的输出更为一致和实用。多模融合的更顺畅，与 OpenAI的工程设计不相上下。

像Runway、 Pika这样的纯文字类产品，在人工智能的时代，也是有一席之地的。Sora采用了 Transformer+ Diffusion两种模式，从模型结构上来说，如果按照 Transformer作为标准，还是以《Transformer》为标准，那么还是以《Diffusion》为核心，前者的可能性更大。

没有让人望尘莫及的技术，只有不断攀升的工业热潮。

Sora虽然一次就能制作出数十秒长的视频，但在实际使用中，如果不能保证用户可以通过微操作将其融入到自己的工作流中， Sora的影响力很可能会随着时间的推移而逐渐消失。

即便是在 ChatGPT发布一年之后，仍有相当数量的用户不会用它。这也给开源社区制造了一个追赶的窗口，而文生文和文生视频模式的模块化结合，会不会出现像 iPhone这样的私有智能装置？这样就可以让更多的用户使用这款软件，从而形成一种开放的、小型的、小型的模型+移动的模式，给整个智能手机带来一场革命。

新的产品总是不断地涌现出来，技术的传播也只是刚刚起步，没有哪一家企业会因为一项新技术的问世而“猝死”。

五、人工智能大爆发，平民也能成为“领航员”

对于一般人来说，能不被“遥遥领先”、“王炸”这样的字眼洗脑，就已经很不容易了，更别说保持理智了。在 Sora病毒肆虐的这段时间里，一般人需要做三件事。

1.将其应用于您所熟知的方案

与焦虑相反的是特殊性。只有通过 Sora这样的人工智能技术，将其应用到实际的工作中，我们才能真正感受到，人工智能将会在多大程度上代替我们的工作。也是为了让我们更好的了解到，人工智能是如何应用到我们的问题中来的。对新技术、新应用，初期用户最大的好处，就是能将其价值提前挖掘出来，从而提升生产力与生产效率。如果你只是想体验一下，让 AI给你一个问题，让你判断一下人工智能是不是真的有智慧，或者是有缺陷，那你就会迷失在自己的安乐窝里。

2.尝试一种新的生活方式

瓦特发明了蒸汽机，但最有价值的却是那些用它来制造的商人。汽车极大地提高了交通运输的效率，而电子商务则将整个交通系统提升到了一个新的高度，以至于很多网络平台都开始使用第二天送达。

莎拉展现出了她所有的超能力，但是她还缺一个真正的发现她的人。伯乐公司不仅要了解人工智能工具的种种优缺点，更要对自己的商业系统有深入的了解与认识，并利用人工智能技术对商业过程进行整合与重构。而随着时间的推移，越来越多的新技术和人工智能结合在一起，“侵入”到了各个行业。

3.作为一名“领航员”在游戏中扮演一个角色

随机应变，才是正确的选择。

回顾工业革命，由于机械的发明，熟练的、高级的纺织业工人失去了工作，而不是普通的纺织业工人。之所以如此，那是因为工业革命将专家的经验固化在了一个体系之内，让那些原本没有任何经验的人，在机械和系统的作用下，也可以发挥出远超熟练人员的水平。与此类似，波士顿顾问公司近来把顾问分成高低两类，并采用GPT-4，最后的效果是，初级咨询师的成绩提升了43%，高级咨询师的提升只有17%。高低两组之间的表现差距由22%降至4%。

与其急于适应他人所制订的新制度，还不如借助先行者的优势，去适应和拥抱变化，做一名规则的“领航员”。对 Sora的出现进行了梳理，在讨论中提出了几个关于“创新”的想法，以供各位参考：

发表于: 2024-02-172024-02-17 10:31:00
原文链接：https://page.om.qq.com/page/Oz7rQVkTKzuPP93MGcoz41kw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

OpenAI视频模型“秒杀”一众模型，AI创业是否难逃大厂降维碾压！

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐