Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >徐图智能徐东:文生视频创业,要用坚定信仰对抗 fomo 的大厂

徐图智能徐东:文生视频创业,要用坚定信仰对抗 fomo 的大厂

作者头像
AI科技评论
发布于 2024-06-17 08:04:08
发布于 2024-06-17 08:04:08
20002
代码可运行
举报
文章被收录于专栏:AI科技评论AI科技评论
运行总次数:2
代码可运行
不开源,文生视频模型仍是原子弹,而不是茶叶蛋。

作者丨王悦

编辑丨陈彩娴

在 GPT-4 发布一年多后,OpenAI 推出 GPT-4o,是有史以来第一个真正实现「多模态输入—多模态输出」的多模态模型。

GPT-4o 的出现所传递的信息是:在底层模型并没有变得更智能的情况下,能够跨多种模态进行推理的模型必然是更加通用的。因为其不仅具备多种功能,还能以不同模态传递知识。

虽然具备了强大的多模态能力, 但 GPT-4o 目前只可以接受文本、音频和图像/视频数据的任意组合作为输入,并生成文本、音频和图像作为输出,其中尚未涉及视频生成这一部分。其实,这也侧面证明了,视频生成是难啃的一块骨头。

即使是主打视频生成能力的 Sora 在今年发布后也尚未对外开放使用,其真正的技术稳定性仍然存疑,而国内则是处在闷头追赶 Sora 的技术研发期,各文生视频创业公司亦是把战力值加满,想在短暂的窗口期融到更多的钱来尽快在几个月内追赶上 Sora 的脚步。

「三个月内对齐到 Sora 的视频生成效果还是很难的,和 Sora 相比大家都还是在一个相对低的起跑线上,这样是个长期发力、急不得的事。」香港大学教授、欧洲科学院外籍院士、徐图智能创始人徐东告诉 AI 科技评论。

AI 2.0 时代,模型即平台、模型即产品。在当下技术无定论、底层模型尚未开源的阶段,文生视频还处在科研和产品中间的位置,没有出现较为成熟的产品。因此,文生视频背后的技术能力就会起决定性作用,而技术又跟科研水平强挂钩,研究成果几乎就是模型本身。

背靠香港大学,徐东和其它几位教授和学生组成的徐图智能团队在 Sora 发布之前就开始采用 DiT 路线来实现文生视频。并且,在影响视频生成时长的压缩技术上,团队从 2018 年就开始进行技术积累。「做深度视频压缩算法,就相当于在攻克大语言模型的长文本能力。如果没办法在时间和空间层面同时做好视频压缩,那么生成的时长就无法做到 1 分钟。」徐东说道。

人类运用感官的能力被认为是智能的关键部分,而其中眼睛能看到的图像和视频则受众面更广、传播性更强,相较于文字有更低的接受门槛。因此,视频能力是多模态的关键,更是迈向 AGI 的路上不可跳过的一步。

至于最后究竟是大厂、AI 独角兽还是文生视频创业公司能够跑出来,还悬而未决。「但做文生视频最重要的是有信仰,抱着 fomo 的心态去试水和心怀坚定的技术信仰去研发是完全不同的两件事。」徐东说道。

文生视频这条赛道上,需要有技术实力、坚定信仰的创业者稳扎稳打、长期发力跑下去。

1

三个月无法对齐 Sora

AI 科技评论:Sora 出现之前,文生视频赛道中 Pika、Runway 刚崭露头角, Sora 的出现打了大家一个措手不及,这是否会使文生视频创业者因压力过大而动作变形?

徐东:压力肯定还是有的,但我觉得还好。因为我对这个赛道的判断是,肯定会有几家初创公司能活下来,当然大厂也认为不可 miss 这么大的机会所以肯定也会去做,但未必每家大厂都能做出来。其中可能至少有两家不同类型的公司能够活下来,其中一家提供最底层文生视频技术,另外一家可能更强调把 community 做好。

文生视频这个赛道和大语言模型的赛道是不一样的,去年一年涌现出上百个大模型,几个月内会定生死,而文生视频的赛道其实还挺长的,而且现在专注做文生视频的公司也不多,所以其实并不是那么拥挤。

因此,大家目前即使谁有一点领先、谁落后一点都还相对是能接受的,和 Sora 相比大家都还是在一个相对低的起跑线上,对齐 Sora 是个长期发力、急不得的事,不在乎一时的输赢,那压力就没那么大了。

AI 科技评论:在 Sora 出现之后,行业内有一种说法是想要在半年左右的时间去追赶上 Sora ,这是可行的吗?

徐东:老实讲,我觉得 3 个月对齐Sora还是挺难的。因为 Sora 消耗的 GPU 资源还是蛮大的。在当下创业公司都没有融很多钱的时候,去设置一个不太可能完成的目标,其实是没必要的。

还是把心态放平衡,除非某家有很多资源,那如果在没有很多资源的情况下,大家就是需要花相当长的时间去把这事逐步地追赶上去,而且最终也不止一家能活下来,所以说也没必要搞那么大压力。

并且这个赛道如果只做到快,也是不行的,没把数据准备、视频压缩、DiT 训练以及架构这些工作做扎实的话,很难做出国内的 Sora,不能跨越式发展。而且 Sora 的技术报告也没有给太多细节,所以会有时间上的试错成本。

AI 科技评论:也就是说做多模态或者文生视频,相较于大语言模型,是需要把战线拉得更长,节奏没有大语言模型那么快?

徐东:是的。现在即使是 Sora 的落地状况也不是很清楚,可能是由于 Sora 目前还是 ChatGPT 1.0 ,距离ChatGPT 3.5 这种能提高生产力的、可靠性较高的程度还是有差别的。当然生成视频如果只是 for fun, Sora也可能是可以的。但是大家估计Sora在云端做推理的成本很高,所以条件也不允许免费、大范围无限制地调用Sora来生成视频 to C for fun。

AI 科技评论:Sora 发布以来,现在国内有部分厂商也发布了自家生成的 20 秒视频,这是不是说明国内文生视频水平很快就能追上 Sora?

徐东:Sora 是甩开了大家至少两个身位。虽然很多家能做到10秒以上,但问题是到底有多可靠,无论是 Sora 还是国内,很少有视频大模型给大家开放实测。这背后的问题就是,目前国内的文生视频是否能很可靠地生成 20 秒视频?是否能做到不需要精挑细选就能生成一个可以对外的 demo?这几天快手「可灵」开放测试,不过网上放出来的生成结果都还只是5秒的视频,不知道是否能够稳定地生成其demo中呈现的120s视频。

AI 科技评论:做视频AI研究有 20 多年的时间以来,视频这一模态大概经历了什么样的发展历程?

徐东:正如计算机视觉可以分为 high level 视觉和 low level 视觉,视频方向的研究也可以分成 high level 和 low level。前者是做视频的识别、检测、分割、看视频说话( video to text),后者则是视频超分、去噪、 视频生成(text to video)。

在相当长一段时间,视频动作/事件识别是视频AI最重要的研究方向。最早做控制环境下(比如固定摄像头,简单背景)对人物动作的识别,后来逐步过渡到2007年左右的时候,就可以在真实的、没有限制的环境下进行动作/事件识别(比如电影视频里面的动作识别和我们做的新闻视频里面的事件识别)。之后到智能手机拍摄图像/视频变得流行以后,就开始做用户拍摄的personal video(个人视频)中的动作/事件识别。

AI 科技评论:最后为什么选择去做 low level 层面的创业?

徐东:我早期是做 high level 视觉的,后来深度学习火了以后就发觉做 high level 视觉的人太多了,看 CVPR 的论文,那时几乎有 90% 以上的文章都是high level 视觉的,不到 10% 是 low level视觉的论文。而其中大部分做深度学习的人并不擅长做视频压缩,他们更倾向去做识别、分割、检测这种高层任务,于是就想着能不能来做底层视觉,就开始做深度视频压缩的研究。

AI 科技评论:你们团队解决过多视频这一模态的哪些关键问题?

徐东:我们是最早把迁移学习引入到做个人视频识别领域的团队。因为当时的一个难点是缺乏做视频事件识别所需要的训练数据集,但在 YouTube 上已经有一些用户为自己创作的视频打上一些关键词(tag),于是我们在网上下载到这些YouTube视频作为训练样本来学习分类模型,然后用它来识别其他用户自己拍摄的视频,很自然的就把迁移学习引进来处理训练 YouTube 视频和个人用户视频之间分布不一致的问题。这项研究的论文获了 CVPR 2010 最佳学生论文奖,期刊版本发表于T-PAMI 2012(参见如下论文)。

论文链接:https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=9b969e1ef4de098ebc6ba388e1b41aa98ea5df47

由于这个工作和我们团队2010年前后一系列的相关工作,计算机视觉领域的研究人员逐步提出了大量针对不同视觉任务的迁移学习方法,最后我和加利福尼亚大学伯克利分校Trevor Darrell教授,波士顿大学Kate Saenko教授(当时是Darrell教授的博士后)以及约翰霍普金斯大学Rama Chellappa等教授一起开创了一个名为视觉领域自适应(Visual Domain Adaptation)的新研究领域。

除此之外,2018 年开始,我们团队开始做端到端优化的深度视频压缩网络DVC(Deep Video Compression),现在这个领域的研究人员会普遍将 DVC 这项工作认为是世界上第一个端到端优化的深度视频压缩框架。

论文链接:https://arxiv.org/pdf/1812.00101

过去做视频压缩的方式是人为设计新的模块,来更好的去除视频数据空间和时间维度上的冗余,这种方式延续了几十年。我们做的时候就把所有的模块都替换成神经网络。这时候面临的第一个难题就是没有可供训练的数据集,反复尝试以后我们采用了麻省理工团队收集的数据库Vimeo-90k。麻省理工团队的成员告诉我们他们收集这个数据集的时候也没有意识到这个数据库可以被用来做深度视频压缩。但是由于我们首先采用了这个数据库,Vimeo-90k 数据集就成了做深度视频压缩方向的训练数据库。经过几年的研究,我们在视频压缩标注数据集上的结果从和20多年前的压缩标准 H.264 相当到超过最新的压缩标准 H.266,在相当长的一段时间内,我们团队都是这个领域在世界范围内最前沿的研究团队。

AI 科技评论:当下文生视频的发展处于什么样的阶段?

徐东:其实当下文生视频还处在科研和产品中间,坦言来讲它和产品之间还有不小的距离,研发的比重会更多一点。如果技术已经没有什么发展空间,大家都准备做工程化了,这样的节点我们肯定没有优势。但现在是只知道大概的方向,具体细节尚未可知,而且说不定未来还需换成另外的技术路线,这个时候科研团队的优势就体现了出来。这种优势和 0—1 的 research 能力,是即使有钱也买不到的。

AI 科技评论:目前文生视频创业团队,一部分是之前大厂出来的业界大咖,另一部分是高校学者,两者各有什么优势?谁更有可能跑出来?

徐东:互联网时代,在视频领域有现象级的 APP 抖音、快手, 而在学术界,高校学者确实并不擅长做 APP,也不擅长做工程化太强的东西。即使是在 AI 1.0 时代,在视频领域能够真正落地且对人们的生活方式有实质改变的东西也相当比较少,也许只能做一些 tools,但无法真的靠 AI 来做出一家现象级的平台型公司。

但是在 AI 2.0 时代, 做一家平台型公司的难度和过去互联网时代是不一样。AI 2.0 是技术驱动的团队更擅长的事,因为现在就是模型即产品、模型即平台的时代,因此模型质量就是最关键的因素,而模型质量跟科研水平十分挂钩,几乎是你的研究成果就是模型。而模型本身又离产品又很近,基本上不需要做太多其他的步骤就是产品。也就是说,做研究的 output 恰好就是产品,这个时候教授带队的创业反而会有一定优势。

而且可以看到,OpenAI 这帮人中,虽然有工程化能力很强的人,但能够驱动这个项目的还是顶尖的 researcher。

2

深度压缩

对应 LLM 的长文本能力

AI 科技评论:你认为做文生视频的关键技术问题是什么?

徐东:对于文生视频,其实最难的还不只是 DiT,视频压缩也重要。如果做不好时间和空间这两个维度的压缩你就生成不了长视频。

压缩是文生视频中很关键的步骤,它决定了生成视频的时长。在保证同等生成质量的情况下,假设视频压缩算法能够多去除50%的信息冗余,那可能别人能生成10秒的视频,压缩效率提高后就能生成 15 秒的视频。

Pika 和Runway 的问题就是,他们只做了空间维度的压缩,而没有做时空维度同时的数据压缩,导致模型在训练的时候也只能用一个时长较短的视频做训练。如果他只能用 4 秒的视频做训练的话,最终也不能生成一个 20 秒的视频。

Sora 目前能把一个空间分辨率高、时长也很长的视频同时进行时空数据压缩,那这个视频的空间时间维度都变小,在这个小的空间上再去做 DiT 路线是可行的。DiT路线只是一个加噪和去噪的过程,它本身只是把文本的信息引入到去噪的过程当中,通过把文本信息跟视觉信息有效地融合来实现文生视频。因此,用长视频去训练,推理的时候也能生成长视频。更重要的是,完成DiT路线之后,还要经过一个 decoder 过程来重建原始高分辨率的视频,将低分辨率的特征还原到高分辨率的视频上去。压缩压得不好的话,重建视频的质量也有问题,比如出现抖动现象。

AI 科技评论:如果用大语言模型做对比的话,深度压缩相当于哪一个技术关键点?

徐东:深度视频压缩算法,有点相当于大语言模型的长文本,大家其实没有意识到它的重要性,其实它意味着,同等情况下我压得比你狠,那就一定能做到生成视频时长比你长。

AI 科技评论:除了压缩以外,还有什么关键技术能拉开各家文生视频模型的差距?

徐东:更多的在于 DiT 实现的细节,其中scaling up非常重要。另外从数据角度来讲,需要准备高质量的数据,我们花了一年多的时间收集数据,有上亿个 video clip。

AI 科技评论:行业内有一种说法是,相比于视频生成能力,先做好语言生成能力会更重要,认为只做视频生成模型,不做基础语言模型的公司会处于劣势。你是否认同?

徐东:语言能力确实决定了多模态能力,多模态模型肯定要依赖于语言模型,如果语言做不好,多模态也就做不好。当然,语言模型或者多模态模型对文生视频模型的一些数据准备工作是有帮助的。

但整体来讲,文生视频主要的 DiT 架构和语言大模型的路线不一样,视频能力相对会独立一些。我认为,视频能力还是挺重要的,主要是视频这种载体的受众面广,传播得也很快。虽然目前仍然是语言模型更成熟、离商业化更近,文生视频模型离商业化稍微远一点。确实我们不做语言模型,也不擅长做离商业化很近的东西,但两者仍然各有优劣,我们擅长做创新科研,这也是我们这种高校科研团队创业的原因和存在的理由。

3

视频模型是原子弹

不是茶叶蛋

AI 科技评论:周鸿祎说过,2023年,看大模型像原子弹,现在再看大模型像茶叶蛋。文生视频的赛道是否会出现相同的情况?

徐东:这个赛道不像大语言模型那样,能很快融资、变现,和大语言模型的发展路径其实是不太一样的,很大程度上是因为大语言模型中有 LLaMA 开源,国内进行微调之后会瞬间涌现上百个模型。

文生视频模型落地的节奏会更长一些,现在也没有高质量的开源模型,不是随便做一下就能做出来的。如果没有高质量开源模型的话,它就永远还是原子弹,而不是茶叶蛋。

AI 科技评论:现在 MiniMax 等大模型独角兽、字节等互联网大厂都在做文生视频模型,那么专门做文生视频的创业公司如何与他们竞争?

徐东:其实我觉得做文生视频最重要的是要有信仰的,因为这件事并不是很容易,尤其是在没有高质量开源模型而且 OpenAI 也没有提供太多技术细节的情况下,技术还处于研究和产品中间,没有信仰的团队很难 All In 做这个事情,并将其做出来。

对大模型创业公司来说,如果只是想通过这个亮点来抬抬估值,估计是不行的。真的需要去相信它能做出来并且不管多么困难都愿意投入资源去做,真的需要有一个顶尖人才的团队 All In 去做这件事,并且 All In 之后还有可能打水漂。做个效果差强人意的模型是可能的,真的做得像 Sora 效果那么好还是很难。

于大厂而言,文生视频是件 fomo 的事情,所以他们肯定会做。只不过抱着害怕错过的心态和坚定的技术信仰去做事是完全不同的,并且大厂要想专门组建一个顶尖人才的团队去做这件事情还是很困难的。从侧面也说明了,大厂也给技术较强的文生视频创业公司提供了一些收购的机会。

AI 科技评论:什么样的才是顶尖人才?

徐东:中国的 AI 人才数量比美国是多的,但从结果上来看,国内在技术水平上和美国相比可能还是有一定的差距,我猜测主要原因是顶尖人才比较稀缺。至于,怎么衡量是不是顶尖人才?其中很重要的一个指标就是,不能等OpenAI 研究完之后告诉你该做哪个你就做哪个,而是在 OpenAI 告诉你之前就在做这个事情,甚至有外界的声音指责你做错了,但仍会一直坚持做你相信的。

AI 科技评论:最近 OpenAI 发布了ChatGPT-4o,这预示了多模态大模型的那些趋势?

徐东:其实 ChatGPT-4o 目前的突破点就是,把语音识别、文字生成、语音合成这三个独立的模块给它合并成了一个模块。以此为基础,之后从多模态 in 到多模态 out 会是进化的方向,也就是说输入可以是文字、语音或者图像/视频,输出也可以是语音、文字和图像。但这个体系中,还没有把视频生成的能力加进去,可能是因为 Sora 本身或者文生视频还不是很成熟。

AI 科技评论:国内距离 ChatGPT-4o 是否有很大差距?

徐东:ChatGPT-4o 里面包括很多工程化的事情,更像是一个成熟的产品,但他并不是一个breakthrough。 ChatGPT-4o 包含的这几个模块之前都是相对成熟的,只是各部分之间相对独立、语音交互反应的延迟又很大,而ChatGPT-4o 则是把对图像 high level 的理解能力和 low level 的生成能力结合在一起了,可以把他做成一个端到端的模型,可以做到较低的时延,做到实时语音聊天。所以,国内如果想追的话可能不是那么难。

AI 科技评论:从技术路线的角度来讲,您认为 ChatGPT-4o 有什么突破的地方吗?

徐东:它可能涉及到了路线之争,ChatGPT-4o 这一点是很厉害的。因为之前 DALL·E3 系列用的是 Diffusion 模型,但 ChatGPT-4o 是一个新的端到端训练的Single模型,我们猜测似乎是文生图部分走回到了最早 DALL·E 的自回归路线。虽然之前大家会认为 Diffusion 模型效果好,而自回归路线是 DALL·E 的老路线,但GPT-4o 证明了, 自回归路线能实现的结果也不差,也就是说 Diffusion 路线不一定比自回归路线好很多,两者可能是半斤八两、各有优势。

AI 科技评论:在 2024 年剩下的时间里,你认为文生视频赛道可见的竞争点是什么?

徐东:得开放出来用,让各种类型的用户能测试到,这个是比较重要的。不能说公开的这一个效果惊艳的 demo 是从大量的结果里面挑出来的,不至于说要求百发百中,但至少抽卡不能抽得太凶,稳定性和可控性十分重要。其中,如何提升可控性,即如何更好地按照用户的意图来生成视频,迄今为止任然是一个非常难的开放课题,这个问题在图片领域都没有被很好的解决。当然效率也很重要,因为其直接决定了文生视频系统的推理成本。

AI 科技评论:文生视频赛道中,仍处于从技术到产品的阶段,但各厂商也在技术不是很成熟的阶段做出了一些商业化,这是一种健康的状态吗?

徐东:早点做商业化还是有必要的,并且目前投资环境不是很好,不能一直烧投资人的钱。并且尽早做商业化,有一些数据和用户反馈进来后,也有利于模型的迭代,之后别人要是追赶的话也比较难。

AI 科技评论:文生视频需要哪些条件、发展到什么程度才可以大范围 To C?

徐东:具体的时间点可能很难去预测,但一个关键问题会取决于端侧推理能力的发展。最开始肯定是 AIPC 的发展,现在微软、联想、戴尔等 PC 厂商都在做。然后慢慢地考虑高端手机到中端手机。除了端侧推理能力的发展之外,也会取决于模型压缩,如何把一个性能优异的模型压缩后能够部署在端上。

如果有一天,在能够把这两件事做到的基础上,至少还能生成一个哪怕分辨率不是那么高、20 秒左右的视频,那么 To C 这件事就是真的可行的。那时候可以达到,对手机说一段话就能产生一个视频,如果不满意还可以就再接着说一句话进行修改,这才真正是「人人都是视频创作者的时代」。

AI 科技评论:你认为对于文生视频这个领域而言, To C 会早于 To B 吗?

徐东:走在前面的可能还是 To B,从大 B 的影视公司,到中 B 的游戏工作室、短剧工作室、广告工作室,再到小 B 的专业用户比如 up 主这类,这时候切实能为他们的工作降本增效,付费意愿自然会强烈。

如果真的做到 To C,像抖音一样达到老人和小朋友随时随地都能用的程度, 一定需要模型的推理都到端上。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Sora 面世,视频生成的 GPT-3 时刻来了
2月16日凌晨,正值中国春节法定节假日期间,OpenAI 毫无预兆地发布了 AI 视频生成大模型 Sora。看过视频效果后,网友纷纷感叹「现实,不存在了。」
AI科技评论
2024/02/27
2650
Sora 面世,视频生成的 GPT-3 时刻来了
国内公司有望做出Sora吗?这支清华系大模型团队给出了希望
2023 年年底,很多人都预测,未来一年将是视频生成快速发展的一年。但出人意料的是,农历春节刚过,OpenAI 就扔出了一个重磅炸弹 —— 能生成 1 分钟流畅、逼真视频的 Sora。它的出现让很多研究者担心:国内外 AI 技术的差距是不是又拉大了?
机器之心
2024/02/27
3210
国内公司有望做出Sora吗?这支清华系大模型团队给出了希望
Sora 发布两周后,关于 Sora 的一些冷思考
两周前的今天,北京时间 2 月 16 日,OpenAI 、谷歌、Meta、Stability 都在这一时间节点前后发布文生视频模型成果,但只有 OpenAI 的 Sora 在这场角逐中破圈而出,成功抢占全球的注意力。可以说,Sora 打响了文生视频大模型行业 2024 年的第一炮。
AI科技评论
2024/03/06
2020
Sora 发布两周后,关于 Sora 的一些冷思考
比 Sora DiT 架构早两个月的 U-ViT,由这家中国 AIGC 公司提出
CVPR2023 曾拒稿 OpeanAI 的 DiT,收录生数科技的 U-ViT。
AI科技评论
2024/03/18
3910
比 Sora  DiT 架构早两个月的 U-ViT,由这家中国 AIGC 公司提出
深入浅出熟悉OpenAI最新大作Sora文生视频大模型
蠢蠢欲动,惴惴不安,朋友们我又来了,这个春节真的过的是像过山车,Gemini1.5 PRO还没过劲,OpenAI又放大招,人类真的要认输了吗,让我忍不住想要再探究竟,到底是什么让文生视频发生了质的跃迁,再次不仅止不住唏嘘,那些老板们辛辛苦苦创起来的业,恐怕又被降维打击了一波!
朱晓霞
2024/02/26
2710
深入浅出熟悉OpenAI最新大作Sora文生视频大模型
“视频生成器”表皮之下,Sora究竟意味着什么?
Sora,源自日语的そら,空。色即是空。色、受、想、行、识,五蕴亦皆空。至大无外,至小无内,这个产品注定会给人无穷的想象空间。
小腾资讯君
2024/02/26
2980
“视频生成器”表皮之下,Sora究竟意味着什么?
多模态模型如何架构选型?从 UNet 到 DiT+AR,智象未来潘滢炜:今年要触达物理世界的构建
当前,多模态技术正处于快速发展阶段,成为 AI 演进的关键方向之一。多模态大模型能够同时生成和理解文本、音频、视频等多种信息类型,使机器具备更接近人类的感知与推理能力。当前,业内一边对多模态模型做前沿研究,一边探索落地部署。
深度学习与Python
2025/06/23
1230
多模态模型如何架构选型?从 UNet 到 DiT+AR,智象未来潘滢炜:今年要触达物理世界的构建
Sora阴影之下,焦虑的中国AI
“跟不上的可能就要被淘汰了。”看到Sora演示视频后,从业10多年的动画制作师黄斌得出了这样的判断。
科技云报道
2024/03/05
1670
Sora阴影之下,焦虑的中国AI
万字长文解构中国如何复刻 Sora:模型架构、参数规模、数据规模、训练成本
导语 OpenAI 越来越不“Open”了,尽管发布多个轰动世界的闭源大模型——从 ChatGPT 到 Sora——伴随的技术报告却并不“技术”,更像一种营销。这次 Sora 的技术博客明确表示不分享技术实现细节,只提供模型设计理念及其“炫酷”的效果展示。 而尚在内测阶段的 Sora ,其轰动效应仅次于一年多前 ChatGPT 的“核爆”。从结果来看,Sora 均能在维持高分辨率输出的同时,在视频生成长度以及一致性层面,实现对于现有视频生成模型的碾压式超越。 在国人感叹于 Sora 的惊赞效果、顿悟这一人类与 AI 文明交汇时刻的同时,一面是哀鸿遍野于我们与 OpenAI 的进一步宏大差距,一面是各路神仙从各种角度予以技术分析、点评或拆解。 今日此时,中国的 AI 再一次站在了十字路口。作为技术人我们好奇 Sora 的实现细节究竟如何?作为中国的创业者,我们同样追问 Sora 能否复刻?中国复刻 Sora 要跨过哪些门槛?能否共趟一条中国 AI 强而有为的逆袭之路? 本文旨在提供对 Sora 技术路线的有理有据的“猜想”,其主要依据是出门问问训练跨模态大语言模型「序列猴子」获得的实战经验以及对相关文献的梳理。 错漏之处,文责自负,欢迎业界同仁批评指正,以期吾辈共勉。
深度学习与Python
2024/03/07
1.2K0
万字长文解构中国如何复刻 Sora:模型架构、参数规模、数据规模、训练成本
中国版的Sora还需要多久?
近日,一款名为Kimi的国产大模型在资本市场上引起了广泛关注,成为了AI领域的新星。Kimi,由国内AI创业公司月之暗面科技有限公司(Moonshot AI)开发,凭借其卓越的长文本处理能力和丰富的应用场景,迅速在AI对话助手市场中脱颖而出。
matinal
2024/04/07
4060
Sora文生视频模型深度剖析:全网独家指南,洞悉98%关键信息,纯干货
sora 是一个以 latent、transformer、diffusion 为三个关键点的模型。
汀丶人工智能
2024/02/22
7680
Sora文生视频模型深度剖析:全网独家指南,洞悉98%关键信息,纯干货
Sora“碾压”一众模型,Pika等创业公司再无活路?
未必!真正在应用阶段,如果产品没有提供足够多的微操空间,确保用户能够通过微操将其整合到自己的工作流中,那么大概率Sora仍是效果越来越炸裂,距离用户越来越远。
小腾资讯君
2024/02/19
4180
【万字长文】与硅谷创业者深聊Sora:对技术创新和商业逻辑的思考
Sora能够制作长达60秒的流畅视频,这与通常只能生成不足5秒视频的其它文生视频技术相比,无疑是一次“跨代”的飞跃。在OpenAI发布的演示视频中,遮挡后的物品能够随着遮挡物的移除而重新显现。在放出的示例视频中,被遮挡的物品在遮挡物离开之后,可以再次重现,这个细节又让业内惊叹。OpenAI在公开的技术文档中将Sora视为一种“世界模拟器”,表达比较谨慎。但是行业内还是有讨论,看起来Sora正在构建“物理世界模型”。
小腾资讯君
2024/03/01
3510
视频生成赛道再添「猛将」,智谱清影正式上线
年初 Sora 横空出世,验证了 Scalling Law 在视频生成方面的有效性。但 Sora 始终止步于公开的 60 秒 demo,产品落地计划迟迟未有公开。
AI科技评论
2024/07/29
2960
视频生成赛道再添「猛将」,智谱清影正式上线
Sora能引爆生成视频新纪元吗?
2月15日,创造了ChatGPT的OpenAI推出一款名为Sora的生成式人工智能模型,又一次引爆科技圈。Sora可以将文字提示词转化为视频,OpenAI发布的视频效果令人大受震撼,带来了AIGC的又一个高光时刻。
小腾资讯君
2024/03/19
2780
Sora能引爆生成视频新纪元吗?
OpenAI Sora模型原理解析!
OpenAI Sora文生视频模型一经亮相再次沸腾了整个AI 圈,也是ChatGPT掀起GenAI热潮时隔一年后,OpenAI再次史诗级的更新。随后,OpenAI公布的技术综述[文献1]: 视频生成模型作为世界模拟器,更是充分展现了其勃勃雄心,这无疑为AI领域注入了新的活力与期待。
算法进阶
2024/02/29
4640
OpenAI Sora模型原理解析!
探索AI视频生成新纪元:文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来
由于在AI生成视频的时长上成功突破到一分钟,再加上演示视频的高度逼真和高质量,Sora立刻引起了轰动。在Sora横空出世之前,Runway一直被视为AI生成视频的默认选择,尤其是自去年11月推出第二代模型以来,Runway还被称为“AI视频界的MidJourney”。第二代模型Gen-2不仅解决了第一代AI生成视频中每帧之间连贯性过低的问题,在从图像生成视频的过程中也能给出很好的结果。
汀丶人工智能
2024/02/19
2.5K0
探索AI视频生成新纪元:文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来
Sora的前世今生:从文生图到文生视频
最近AI圈内乃至整个科技圈最爆的新闻莫过于OpenAI的Sora了,感觉热度甚至远超之前ChatGPT发布时的热度。OpenAI也是放出了Sora的技术报告(有一定的信息量,也留下了大量的想象空间)。
腾讯技术工程官方号
2024/02/23
1.5K0
Sora的前世今生:从文生图到文生视频
独家专访Pika:Sora is not very hard to beat,我们的算法能够以小胜大|AI Pioneers
人类正在迎来人工智能领域的爆炸式更新,技术向未知拓展的每一步,几乎都引起惊人的关注度。
机器之心
2024/06/17
1840
独家专访Pika:Sora is not very hard to beat,我们的算法能够以小胜大|AI Pioneers
人大系初创与OpenAI三次“撞车”:类Sora架构一年前已发论文
Sora出世前,他们拿着一篇如今被ICLR 2024接收的论文,十分费劲地为投资人、求知者讲了大半年,却处处碰壁。
量子位
2024/03/07
1530
人大系初创与OpenAI三次“撞车”:类Sora架构一年前已发论文
推荐阅读
相关推荐
Sora 面世,视频生成的 GPT-3 时刻来了
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验