首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Meta首席人工智能科学家:Sora文生视频模型注定会失败

鞭牛士报道,2月23日消息,据外电报道,OpenAI 用于生成视频的新 AI 模型 Sora 自上周发布以来已成为热门话题。但 Meta 首席人工智能科学家 Yann LeCun 并不认为大肆宣传的文本到视频模型就是这样。

LeCun 特别质疑 OpenAI 的说法,即其与 Sora 的合作最终将能够构建物理世界的通用模拟器。LeCun 认为,如果情况确实如此,那么它创建世界模拟器的方法就大错特错了。

他在X(前身为 Twitter)上发表的一篇文章中写道:通过生成像素来模拟世界的行动是一种浪费,而且注定会失败,就像基本上被放弃的综合分析的想法一样。

LeCun 是业界人工智能教父之一,也许也是最直率、最直言不讳的一位。当另外两位教父 为他们所释放的东西而感叹时,LeCun继续他在 Meta 的工作,从不害怕批评他的竞争对手。

他在这里的评论指的是机器学习中生成模型和判别模型之间由来已久的争论。LeCun 认为,前一种方法从解释性潜在变量生成像素效率太低,并且无法充分处理 3D 空间中这些复杂预测所产生的不确定性。

用外行的话来说,他认为这些模型试图推断太多不相关的细节——有点像试图通过理解足球的每种材料如何发挥作用来计算足球的轨迹,而不是通过计算足球的轨迹,只关注质量和速度等东西。

“如果你的目的是真正生成视频,那没有什么问题,”他在回复帖子时说道。“但如果你的目的是了解世界是如何运作的,那就是一个失败的提议。”

LeCun 承认,总的来说,到目前为止,生成方法已经适用于像 ChatGPT 这样的大型语言模型,因为文本是离散的,符号数量有限。但如果你要像索拉那样模拟世界,你要处理的不仅仅是几个角色。

为了与 OpenAI 的方法竞争,LeCun 一直在 Meta 开发自己的模型,称为视频联合嵌入预测架构 (V-JEPA),该模型于上周推出。

Meta 在博客文章中声称:与尝试填充每个缺失像素的生成方法不同,V-JEPA 可以灵活地丢弃不可预测的信息,从而将训练和样本效率提高 1.5 到 6 倍。

LeCun 的工作可能不会像 OpenAI 的产品那样因其华丽的图像和文本生成而受到大肆宣传,但有趣的是,看到这样一位杰出的人工智能研究人员与 OpenAI 及其众多模仿者目前正在开发的相同旧方法有所不同。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OR_CicIIUSL_nIyoEB2NlSUQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券