前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >开源视频生成天花板?最强搅局者Mochi 1免费直出电影级特效

开源视频生成天花板?最强搅局者Mochi 1免费直出电影级特效

作者头像
新智元
发布于 2025-02-14 05:04:02
发布于 2025-02-14 05:04:02
1110
举报
文章被收录于专栏:新智元新智元

新智元报道

编辑:alan

【新智元导读】AI视频生成领域最强搅局者,她来了!影视级效果免费开源,真「赛博菩萨」。

AI视频生成赛道最强搅局者,来了!

何谓搅局?下面这些是模型直出的效果,开源免费送给你!

这也让一些网友直呼:「赛博菩萨」!

虽然很想把标题写成「剑指Sora」,但可惜这个标题小编我用过了~

而蓦然回首,那惊世骇俗的Sora也已经是很久之前的事情了。

今天,我们已经可以通过亲自与开源模型交互,来体验当初的震撼。

先来个高仿版世界名画:

是不是直接梦回当年?

这算是小编目前体验过的最强开源文生视频模型了。

开放权重:https://huggingface.co/genmo/mochi-1-preview

源代码:https://github.com/genmoai/models

这个「赛博菩萨」名叫Mochi 1,来自Genmo,模型的研究预览版已经在hugging face开源(或通过磁力链接下载),Apache 2.0许可证,可免费用于个人和商业用途。

作为Genmo家最新的开源视频生成模型,Mochi 1在运动质量方面表现出色,并且具有极强的提示依从性。

除了开放权重之外,Genmo还在官网提供了免费试用Mochi 1的平台:https://www.genmo.ai/play,完全免费,只不过限制每6小时生成2个视频。

开玩!

神奇的魔法世界:

海上战争:

星际穿越:

月下美人:

开测

这些都是来自discover页面的作品,有可能是网友做的,效果包不包真咱不知道,所以小编只好下场一试:

A Chinese female college student with fair skin, slim figure, and wearing a school uniform stood next to the bookshelf in the library, smiling and looking at the camera attentively. High resolution 4k.

直出的效果小编是比较满意的,这里的动图质量有限,而且截图工具过来有点偏色,还是推荐大家亲自体验,会有惊喜。

在上面的基础上加一点细节:

A Chinese female college student with fair skin, slender figure, and wearing a school uniform is standing next to the bookshelf in the library. She has shoulder-length black short hair, a high nose bridge, and a pointed chin. She is smiling and looking at the camera attentively. High resolution 4k.

虽然但是......还行吧,可能小编的提示词功力还需修炼。

下面这张的效果最令小编惊喜,尽管有些瑕疵,但基本能上官图了吧。

A young woman wearing a white shirt and navy blue dress on the beach at sunset. She was holding high heels in her hands and walking barefoot on the beach, her long silver hair fluttering in the sea breeze. The waves gently lap on the shore, creating a fresh and elegant atmosphere. 4K ultra-high definition, delicate and realistic style.

来看一下刻板印象(doge):

In the summer, a cute Japanese high school student is on campus. She was wearing a school uniform, a short skirt, white stockings and black leather shoes. She was carrying a black schoolbag, with her hands behind her back, smiling at the camera, with the University of Tokyo building behind her.

当然肯定也有翻车的时候:

A cute girl walks on campus in summer. She was wearing her school uniform, short skirt, black stockings and boots, and was carrying a black school bag. She walks confidently and casually

翻车了吗?微翻,翻的不多,也就40%

目前Genmo只发布了生成480p视频的基础版本,而更高级的Mochi 1 HD将于今年晚些时候推出。

另外模型的相关API也已经发布,开发者可以将其无缝集成到自己的应用程序中。

本地跑?

hugging face上的模型权重大小为40多G,根据官方的说法,需要4个H100才能运行。

——不过别担心,既然敢开源,那么总有大神帮你解决问题:

地址:https://github.com/kijai/ComfyUI-MochiWrapper

Mochi 1已经进入ComfyUI了,可以使用flash attention、pytorch attention(sdpa)或sage attention进行加速。

根据设置的帧数,可以把生成过程限制在20GB内存以下,作者还尝试了CogVideoX -diffusers来挑战更高的帧数,目前做到了97帧。

Mochi 1模型架构

Genmo表示自己要搞一个「人工智能的右脑」,而Mochi 1就是构建可以想象任何东西的世界模拟器的第一步。

Mochi 1是基于新型的非对称扩散Transformer(Asymmetric Diffusion Transformer,AsymmDiT) 架构构建的扩散模型。

参数量为100亿,是有史以来开源的最大视频生成模型。

Mochi 1是完全从头开始训练的,同时提供了简单、可以自由修改的架构。

计算效率对于模型的发展至关重要。与Mochi一起开源的还有它的VAE编码器。

VAE将视频压缩了128倍(包括空间压缩和时间压缩),转化到12通道的潜在空间。

AsymmDiT通过简化文本处理,并将神经网络能力集中在视觉推理上,有效地处理用户提示和压缩的视频token。

AsymmDiT通过多模态自我注意共同关注文本和视觉token,并为每种模态学习单独的MLP层,这类似于Stable Diffusion 3,所不同的是,这里的视觉流通过更大的隐藏维度(拥有几乎是文本流的 4 倍的参数)。

为了统一自我注意的模态,研究人员使用非方形QKV和输出投影层。这种非对称设计降低了推理内存要求。

许多现代扩散模型使用多个预训练语言模型来表示用户提示。相比之下,Mochi 1只使用单个T5-XXL对提示进行编码。

Mochi 1的上下文窗口高达44,520个视频token,并具有完整的3D attention。

为了定位每个token,研究人员将可学习的旋转位置嵌入(RoPE)扩展到3维,网络端到端学习空间轴和时间轴的混合频率。

其他的设计包括SwiGLU前馈层、用于增强稳定性的query-key normalization,以及用于控制内部激活的sandwich normalization。

详细的技术论文将在不久之后发布。

评估

当前的视频生成模型与现实之间存在巨大差距。运动质量和提示遵循是视频生成模型中仍然缺少的两个最关键的功能。

Mochi 1为开源视频生成设定了新的标准,对比领先的封闭模型也表现出很强的竞争力:

提示依从性

提示依从性衡量生成的视频遵循提供的文本说明的准确性,从而确保对用户意图的高度保真度。模型应该允许用户对字符、设置和操作进行详细控制。

研究人员使用视觉语言模型作为裁判,遵循OpenAI DALL-E 3协议,使用自动指标对提示依从性进行基准测试。这里使用 Gemini-1.5-Pro-002评估生成的视频。

Elo Score

运动质量评估运动平滑度和空间真实感,确保生成的视频流畅且具有视觉吸引力。

Mochi 1 以每秒30帧的速度生成流畅的视频,持续时间长达5.4秒,具有高度的时间连贯性和逼真的运动动态。

Mochi模拟流体动力学、毛皮和头发等物理特性,以及一致、流畅的人类动作,不存在恐怖谷问题。

评分者根据运动而不是帧级美学(标准包括运动的趣味性、物理合理性和流动性)来进行打分。Elo分数是按照LMSYS Chatbot Arena协议计算的。

局限性

Mochi 1目前仍处于不断发展的状态,存在一些已知的限制。

比如初始版本只能生成480p的视频,比如在某些极端运动的边缘情况下,可能会出现轻微的扭曲。

由于Mochi 1针对照片级真实感样式进行了优化,因此在动画内容中表现不佳。

此外,模型实施了强大的安全审核协议,以确保所有视频都保持安全并符合道德准则。

应用

Mochi 1的开源在各个领域开辟了新的可能性:

研发:推进视频生成领域并探索新方法。 产品开发:在娱乐、广告、教育等领域构建创新应用程序。 创意表达:使艺术家和创作者能够通过AI生成的视频将他们的愿景变为现实。 机器人:生成合成数据,用于在机器人、自动驾驶汽车和虚拟环境中训练AI模型。

What's next?

Genmo近日宣布已经成功筹集了2840万美元的A轮融资,该轮融资由Rick Yang、NEA领投,The House Fund、Gold House Ventures、WndrCo、Eastlink Capital Partners和Essence VC,以及天使投资人Abhay Parasnis(Typespace 首席执行官)、Amjad Masad(Replit 首席执行官)、Sabrina Hahn、Bonita Stewart和Michele Catasta等参投。

Genmo团队包括DDPM(去噪扩散概率模型)、DreamFusion和Emu Video等项目的核心成员,由领先的技术专家提供咨询,包括 Ion Stoica(Databricks和Anyscale的执行主席兼联合创始人)、Pieter Abbeel(Covariant的联合创始人、OpenAI的早期团队成员)和 Joey Gonzalez(语言模型系统的先驱、Turi的联合创始人)。

Genmo表示将在今年年底之前,发布Mochi 1的完整版,其中包括 Mochi 1 HD。

Mochi 1 HD将支持720p视频生成,具有更高的保真度和更流畅的运动,可解决复杂场景中的翘曲等边缘情况。

除此之外,团队还在开发图像到视频功能,并专注于提高模型的可控性和可操控性,以便用户能够更精确地控制自己的输出。

展望未来,高分辨率、长视频生成将触手可及。

参考资料:

https://www.genmo.ai/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-11-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Step-Video-T2V:全球最强开源视频生成
目前阶跃已经成为行业内公认的内卷王之一。其覆盖的领域包含了语音、图片、视频理解和生成等。就在2月中,其就发布了Step-Video-T2V,号称全球最强的开源视频模型。同时一经发布,就已经上线官网,目前所有用户都可以注册进行免费使用,感兴趣的可以来到这个网站进行尝试:
算法一只狗
2025/03/20
1960
免费AI视频生成工具:硅基流动SiliconCloud上的CogVideoX-2B模型
CogVideoX-2B 是由智谱AI开发的一款开源视频生成模型,其核心在于3D变分自编码器(3D VAE)技术,这项技术能够将视频数据压缩至原来的2%,极大地降低了模型处理视频时所需的计算资源。此外,为了进一步提升内容的连贯性,CogVideoX-2B采用了3D旋转位置编码(3D RoPE)技术,使得模型在处理视频时能够更好地捕捉时间维度上的帧间关系,建立起视频中的长期依赖关系,从而生成更加流畅和连贯的视频序列。
AIGC部落
2024/08/29
2580
免费AI视频生成工具:硅基流动SiliconCloud上的CogVideoX-2B模型
Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂
Sora虽爆火但闭源,给学术界带来了不小的挑战。学者们只能尝试使用逆向工程来对Sora复现或扩展。
新智元
2024/03/25
1500
Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂
Sora 面世,视频生成的 GPT-3 时刻来了
2月16日凌晨,正值中国春节法定节假日期间,OpenAI 毫无预兆地发布了 AI 视频生成大模型 Sora。看过视频效果后,网友纷纷感叹「现实,不存在了。」
AI科技评论
2024/02/27
2190
Sora 面世,视频生成的 GPT-3 时刻来了
仅开源上线4天就飙升了1.4k star的图像视频生成模型-StoryDiffusion
大家好,我是xq👨🏻‍💻。今天给大家介绍一款既能保持角色一致又可生成多图漫画和长视频的AI工具,它就是StoryDiffusion。
Python兴趣圈
2024/05/13
4530
仅开源上线4天就飙升了1.4k star的图像视频生成模型-StoryDiffusion
史上首个实时AI视频生成技术:DiT通用,速度提升10.6倍
本周三,新加坡国立大学尤洋团队提出了业内第一种可以实时输出的,基于 DiT 的视频生成方法。
机器之心
2024/06/28
3300
史上首个实时AI视频生成技术:DiT通用,速度提升10.6倍
人人都是电影「导演」!MSRA联合北大等高校提出:视频、电影、短视频生成模型
自从Stable Diffusion和Midjourney爆火之后,人们见识到了人工智能技术在图片生成领域的强大实力。
新智元
2023/09/09
4280
人人都是电影「导演」!MSRA联合北大等高校提出:视频、电影、短视频生成模型
字节开源新型文生视频模型:AnimateDiff-Lightning,最少4步即可生成高质量视频!
AI 技术的飞速发展,正改变着我们生活及工作的方方面面。而在视频领域,近日 字节跳动 新发布了一款令人振奋的新模型: AnimateDiff-Lightning ,无疑是一次革命性的突破!
Python兴趣圈
2024/03/25
9980
字节开源新型文生视频模型:AnimateDiff-Lightning,最少4步即可生成高质量视频!
视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术
本周二,谷歌提出的视频生成大模型上线,立刻获得了人们的关注。这款名为 VideoPoet 的大语言模型,被人们认为是革命性的 zero-shot 视频生成工具。
机器之心
2023/12/20
3640
视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术
CVPR 2023 | 视频AIGC,预测/插帧/生成/编辑
深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读
公众号机器学习与AI生成创作
2023/08/22
1.7K0
CVPR 2023 | 视频AIGC,预测/插帧/生成/编辑
Meta清华校友推全新AI「视频生视频」方法!单张A100生成「男人秒变猩猩」大片
我们已经见证,AI视频生成领域在过去一年里发生的巨变,RunWay的Gen-2、Pika的Pika 1.0等工具实现了高保真度、一致性。
新智元
2024/01/04
2820
Meta清华校友推全新AI「视频生视频」方法!单张A100生成「男人秒变猩猩」大片
谷歌抢先手发布视频生成类AIGC,网友:可以定制电影了
机器之心报道 编辑:杜伟、陈萍 AIGC 已经火了很长时间了,出现了文本生成图像、文本生成视频、图像生成视频等广泛的应用场景,如今谷歌研究院的一项新研究可以让我们根据输入视频生成其他视频了! 我们知道,生成模型和多模态视觉语言模型的进展已经为具备前所未有生成真实性和多样性的大型文本到图像模型铺平了道路。这些模型提供了新的创作过程,但仅限于合成新图像而非编辑现有图像。为了弥合这一差距,基于文本的直观编辑方法可以对生成和真实图像进行基于文本的编辑,并保留这些图像的一些原始属性。与图像类似,近来文本到视频模型也提
机器之心
2023/03/29
7440
谷歌抢先手发布视频生成类AIGC,网友:可以定制电影了
Sora——最强文本视频生成模型!
以ChatGPT闻名海外的OPENAI,最近推出首个**文本视频生成模型——Sora**,其效果极其流畅程度令人叹为观止!
用户4331695
2024/03/04
1890
Sora——最强文本视频生成模型!
视频生成新突破:PixelDance,轻松呈现复杂动作与炫酷特效
最近,除了大语言模型继续持续刷屏,视频生成技术也取得了重大进展,多家公司相继发布了新模型。
机器之心
2023/11/24
3500
视频生成新突破:PixelDance,轻松呈现复杂动作与炫酷特效
AI视频生成哪家强?一键安装 VBench,测一测就知道!
AI视频生成这块儿,最近可真是火得不得了。这几个月以来,好几个视频生成模型相继亮相。各个高校实验室、互联网巨头AI Lab、创业公司纷纷加入了AI视频生成的赛道。Pika、Gen-2、Show-1、VideoCrafter、ModelScope、SEINE、LaVie、VideoLDM等视频生成模型让人眼前一亮。
CV君
2024/01/23
5750
AI视频生成哪家强?一键安装 VBench,测一测就知道!
同时提升摄像机控制效率、视频质量,可控视频生成架构AC3D来了
可控的视频生成需要实现对摄像机的精确控制。然而,控制视频生成模型的摄像机运动(camera control)总是不可避免地伴随着视频质量的下降。近期,来自多伦多大学、Vector Institute、Snap Research 和西蒙・弗雷泽大学(SFU)的研究团队推出了 AC3D (Advanced 3D Camera Control)。AC3D 从基本原理出发,分析了摄像机运动在视频生成中的特点,并通过以下三方面改进了视频生成的效果和效率:
机器之心
2025/02/03
930
同时提升摄像机控制效率、视频质量,可控视频生成架构AC3D来了
「全球首个自回归视频生成大模型」,刚刚,Swin Transformer作者创业团队重磅开源!
今天,马尔奖、清华特奖得主曹越的创业公司 Sand AI 推出了自己的视频生成大模型 ——MAGI-1。这是一个通过自回归预测视频块序列来生成视频的世界模型,生成效果自然流畅,还有多个版本可以下载。
机器之心
2025/04/23
3070
「全球首个自回归视频生成大模型」,刚刚,Swin Transformer作者创业团队重磅开源!
首个4D视频生成扩散模型!Diffusion4D数分钟内实现4D内容生成,超81K的4D数据集已开源!
本文介绍由多伦多大学,北京交通大学,德克萨斯大学奥斯汀分校和剑桥大学团队最新提出的4D生成扩散模型,该方法可以在几分钟之内可以完成时空一致的4D内容生成。
CV君
2024/06/27
3250
首个4D视频生成扩散模型!Diffusion4D数分钟内实现4D内容生成,超81K的4D数据集已开源!
混元视频:大型视频生成模型的系统框架
视频生成技术的最新进展极大地改变了个人与行业日常生活的面貌。然而,主流的视频生成模型仍为闭源,导致行业与公众社区在视频生成能力上存在显著的性能差异。在本报告中,我们提出了HunyuanVideo,这是一种新型开源视频基础模型,其视频生成性能可与主流闭源模型相媲美,甚至更优。HunyuanVideo具有一个综合框架,整合了多项关键贡献,包括数据整理、先进架构设计、渐进式模型缩放与训练,以及为大规模模型训练和推理设计的高效基础设施。凭借这些,我们成功训练了一个参数超过130亿的视频生成模型,成为所有开源模型中的最大模型。我们进行了广泛的实验并实施了一系列有针对性的设计,以确保高视觉质量、运动动态、文本-视频对齐和先进的拍摄技术。根据专业人工评价结果,HunyuanVideo的性能优于先前的最先进模型,包括Runway Gen-3、Luma 1.6和3个表现最佳的中国视频生成模型。通过发布基础模型及其应用的代码,我们旨在弥合闭源与开源社区之间的鸿沟。这一举措将使社区中的每个人都能够对自己的想法进行实验,从而培育一个更具活力和动态的视频生成生态系统。代码已公开发布在https://github.com/Tencent/HunyuanVideo。
AI浩
2024/12/19
4310
混元视频:大型视频生成模型的系统框架
新颖故事化视频生成方法DreamRunner,性能超基线,多目标交互生成能力超绝!
最近,故事化视频生成(SVG)作为一种任务,旨在创建长、多动作、多场景视频,这些视频始终以输入文本脚本中描述的故事为主题。SVG在媒体和娱乐领域的多样化内容创作方面具有巨大潜力;
AIGC 先锋科技
2025/03/10
1760
新颖故事化视频生成方法DreamRunner,性能超基线,多目标交互生成能力超绝!
推荐阅读
Step-Video-T2V:全球最强开源视频生成
1960
免费AI视频生成工具:硅基流动SiliconCloud上的CogVideoX-2B模型
2580
Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂
1500
Sora 面世,视频生成的 GPT-3 时刻来了
2190
仅开源上线4天就飙升了1.4k star的图像视频生成模型-StoryDiffusion
4530
史上首个实时AI视频生成技术:DiT通用,速度提升10.6倍
3300
人人都是电影「导演」!MSRA联合北大等高校提出:视频、电影、短视频生成模型
4280
字节开源新型文生视频模型:AnimateDiff-Lightning,最少4步即可生成高质量视频!
9980
视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术
3640
CVPR 2023 | 视频AIGC,预测/插帧/生成/编辑
1.7K0
Meta清华校友推全新AI「视频生视频」方法!单张A100生成「男人秒变猩猩」大片
2820
谷歌抢先手发布视频生成类AIGC,网友:可以定制电影了
7440
Sora——最强文本视频生成模型!
1890
视频生成新突破:PixelDance,轻松呈现复杂动作与炫酷特效
3500
AI视频生成哪家强?一键安装 VBench,测一测就知道!
5750
同时提升摄像机控制效率、视频质量,可控视频生成架构AC3D来了
930
「全球首个自回归视频生成大模型」,刚刚,Swin Transformer作者创业团队重磅开源!
3070
首个4D视频生成扩散模型!Diffusion4D数分钟内实现4D内容生成,超81K的4D数据集已开源!
3250
混元视频:大型视频生成模型的系统框架
4310
新颖故事化视频生成方法DreamRunner,性能超基线,多目标交互生成能力超绝!
1760
相关推荐
Step-Video-T2V:全球最强开源视频生成
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档