Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >全面升级的“新清影”,给AI生成视频带来了哪些新玩法?

全面升级的“新清影”,给AI生成视频带来了哪些新玩法?

原创
作者头像
Alter聊科技
发布于 2024-11-08 09:09:08
发布于 2024-11-08 09:09:08
1930
举报

就在刚刚,智谱清言App上线了“新清影”,同时对外开源了智谱最新的图生视频模型CogVideoX v1.5。

3个多月前的智谱Open Day上,视频创作智能体清影正式在智谱清言上线,只需30秒即可生成时长6秒、1440x960清晰度的高精视频,随即涌现出了短视频、表情包梗图、广告制作等创新玩法。

短短一个多月的时间,智谱就将清影背后的图生视频模型CogVideoX 2B和5B版本给开源了,可以在消费级显卡上流畅运行,陆续衍生出了CogVideoX-factory等大量二次开发项目。

经过3个多月打磨和进化的“新清影”,都有什么能力上的提升,又将带来哪些有趣的新体验呢?

我们有幸拿到了提前内测的资格,下面和大家一起来揭晓答案。

01 更高清、更快速、更逼真的图生视频

在和多位内容创作者的沟通中,我们了解到:相较于文生视频的趣味性,大家对图生视频有着更高频的需求,因为图生视频进一步提高了生成视频的控制和一致性,可以快速生成可用的视频素材。

“新清影”的第一个亮点,正是“图生视频”能力的全面提升,确切地说可以归纳为四个方面:

一是4K超高清分辨率,相较于清影6秒、1440x960的清晰度,“新清影”支持生成10s、4K、60帧超高清视频。

二是可变比例,用户可以上传任意比例的图像生成视频,哪怕是超宽画幅,都可以生成对应比例的视频。

三是多通道生成能力,以往的图生视频类产品,一次只能生成一个,“新清影”可以一次性生成4个视频。

四是模型能力的提升,CogVideoX在内容连贯性、可控性和训练效率等方面实现了多项创新,让“新清影”的图像质量、美学表现、运动合理性、复杂提示词的语义理解等能力显著提升;同时有着更强的人物面部、表演细节、动作连贯性和物理特性模拟。简而言之就是更加自然和逼真。

前三个方面的提升很容易判断,需要验证的创新点恰恰是视频质量和逼真度,也是视频生成类产品最核心的价值。于是我们找到了几组图片,输入对应的提示词,来验证“新清影”是否言过其实。

第一组照片是站在木桩上的仓鸮,后面的背景被虚化了,给出的提示词也很简单——“让图片中的动物动起来”,以此来验证“新清影”在运动合理性、动作连贯性和图像质量等方面的表现。

视频的整体表现可圈可点,仓鸮转头的动作自然连贯,每一根毛发、每一道纹路、每一处细节都清晰可见。即使背景做了虚化处理,也能感受到有风吹动树叶,仓鸮脚上的绑带也在随风晃动,近乎可以充当真实拍摄的视频。

第二组是一张在雪地里行驶的汽车,在构图上比前面要复杂的多,主体是一台黑色汽车,远处隐约可见一片森林,同时在提示词上也更复杂一些——“在雪地里弹射起步的汽车,掀起了滚滚烟尘”。

这次生成的视频超出了我们的预期:尽管汽车有一点点形变,但起步时轮胎转动溅起的残雪、汽车起步的速度、汽车驶远后逐渐消失的烟尘等等,都遵循了物理规律,甚至可以清晰的看到远处被汽车遮挡的树木,并且符合冬天的场景。

做一个总结的话,“新清影”生成的视频在画面上高度还原了输入图像,光影和色调自然地融入了场景中,视频的自然度和逼真度极大提升。更重要的是,视频生成不再需要不停“抽卡”和二次剪辑,生成的素材几乎可以直接使用。

02 “无声视频”一步跨越到“有声时代”

“新清影”的另一大亮点,在于即将上线的音效功能。

目前AI生成的视频还处于“默片”时代,抑或是人为添加一段背景音乐,并没有解决音效问题。“新清影”即将填补市场空白,可自动生成与画面匹配的音效,让AI视频一步跨越到了“有声时代”。

为了验证音效功能的效果,我们从Pixabay上下载了三段无声的视频片段,然后用智谱的音效模型CogSound匹配了音效。

第一个片段是田野中工作的收割机,并不是一个常见的场景,但CogSound准确生成了拖拉机轰隆隆的引擎声,音效和画面的连贯性、平滑过渡完成地很好,让人仿佛置身于秋收的热闹场景里。

第二个片段是篝火旁倒水的场景,CogSound的表现再次令人惊艳,一开始是木柴燃烧的噼啪声响,在水倒出的时候,恰如其分地出现了倒水的声音,声音和画面几乎没有任何偏差和失配。

第三个片段是大雪中站在木桩上的鸟,也是一个语义理解的“陷阱”,很可能会出现音效的错配,譬如森林里的鸟鸣声。结果超出了我们的想象,可以听到风雪天熟悉的“白噪音”,并且伴随着嘈杂的鸟叫。

如果说“新清影”的图生视频能力,解决了内容创作中对高质量素材的需求,音效功能上线后,进一步让外界看到了更大的应用空间。

比如电影中大规模战斗、灾难等场景,现在可以直接用AI生成音效,不仅将缩短制作周期,还将极大地降低制作成本,在提升产能和效率的同时,加速电影制作从流水线时代进入到智能化时代。

再比如游戏、广告等内容的音效制作,过去需要专业的技术团队,利用专业的设备才能完成,现在只需要一个音效模型CogSound。创作门槛的降低,对一个行业繁荣度的催化作用不言而喻。

可能很多人会产生这样的疑问:既然音效制作是一个复杂的系统性工程,CogSound是怎么实现的?

这里就涉及到大模型中常用的Diffusion架构。

核心思想是将扩散过程从高维原始音频空间转移到低维潜空间中进行,可以在保持生成质量的同时,实现高效的音频合成。

智谱的研发团队采用了基于Unet的Latent Diffusion潜空间扩散,同时引入分块时序对齐交叉注意力机制,在架构中整合了旋转位置编码技术,确保了生成音效与视频内容在语义上的高度一致,并在连贯性和平滑过渡方面效果显著。

通俗一些的解释,智谱的CogSound是这样工作的:

先基于GLM-4V的视频理解能力,准确识别并理解视频背后的语义和情感,再由音频模型根据视频内容生成音效、节奏,甚至是复杂的混合音效,包括爆炸声、水流、乐器、动物叫声、交通工具的声音等等。

03 内容创作“All in One”已不再遥远

年初视频生成模型刚诞生时,吸引了无数人的兴趣,其中畅想最多的一个方向,正是越来越多人参与到视频内容的生产创作。

可惜到目前为止,大多数产品还只是生成短小片段的“创意玩具”,在社交平台上进行轻量化的应用,和生产力仍然有相当大的距离:需要花费大量的时间进行视频剪辑和合成,才能制作出一个看起来还行的短视频。

对于其中存在的症结,可以大致分为两个方面:

一个是模型本身的能力局限,比如语义理解能力,能否准确理解用户的指令;视频生成效果,涉及画面流畅度、人物稳定性、动作连贯性、光影一致性、风格准确性等等;以及生成视频的时长和分辨率。

另一个是产品的易用性,相较于PR、AE等专业的制作工具,AI生成视频极大地降低了门槛,只需输入简短的指令,即可实现丰富的效果。但距离普通小白快速生成高质量视频,还有很长一段路要走。

乐观的是,技术的每一次迭代,都让理想离用户更近一步。

以智谱为例,不到一年时间里,就在视频时长、生成速度、分辨率、一致性等方面实现了长足的进步,验证了scaling law在视频生成方面的有效性,不排除模型能力在很短时间里再一次创新升级的可能。

毕竟3个多月前的清影,还是国内最早全量上线 C 端、人人可用的生成视频功能,刚刚实现技术的从0到1,仅一个季度就完成了能力的全面升级。在这个“技术大爆炸”的时代,所有的技术难题,在根结上不过是时间早晚的问题。

而在产品易用性上,也传出了一些利好的“小道消息”。

联想到智谱在半个月前上线的情感语音模型GLM-4-Voice,和“新清影”一同亮相的音效模型CogSound、音乐模型CogMusic,已然构建了基于 GLM 原创可控技术的,覆盖文本、图像、视频和声音的多模态模型矩阵。

于是我们进行了进一步的测试:让“新清影”将图片生成视频,同时用CogSound给视频生成对应的音效。

除了效果依旧让人惊艳,更直观的体验是效率,整个过程只有几分钟的时间。可以预见,将照片素材批量生成自带音效的视频,或是接下来一段时间里一个重要的应用方向。

进一步猜测:是否存在用工具流同步调用多个模型,只需一个指令就能生成画面和音效同步的视频呢?

借用智谱官方的表态来看:“我们的理想状态是,只需一个好的创意,剩下的事AI都能辅助搞定,轻松将一个 idea、一张图,变成一段自带 bgm 的影片。”言外之意,从脚本、视频画面到声音和音效,过去需要整个团队分工协作完成的任务,以后都可以交给大模型,实现全流程自动化。

一个All in One的视频创作平台,注定不再遥远。

04 写在最后

也许过不了多久,短视频的创作模式就将被重构。

创作者们不再需要亲自出镜,不再需要奔赴拍摄地点;只要通过语言清晰描述自己所需的场景与内容,就可以轻松批量生成符合需求的短视频。

内容创作不再拘泥于专业群体,普通用户也可以通过简单、直观的工具,用AI视频表达自己的创意和想法。

这是大模型的机会,也是所有创作者的机会。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
智谱AI刚刚把他们的Sora「清影」,正式开源了,我爱他们。
起因是我睡觉之前,在看Github的时候,无意间看到THUKEG这个号,更新了一个项目。
数字生命卡兹克
2025/04/14
1360
智谱AI刚刚把他们的Sora「清影」,正式开源了,我爱他们。
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
近年来,随着多模态大模型(如Stable Diffusion、Sora、GPT-4)的爆发式发展,AI已经能够实现从文字生成图像、视频、音乐等内容。优雅草卓伊凡近期收到客户需求:开发一套“一键混剪”视频生成系统,用户只需输入一段文字描述,AI即可自动完成以下任务:
卓伊凡
2025/05/26
2270
告别“默片”时代!智谱新清影正式发布,生成 10 秒 4K60 帧 AI 视频
大家好,我是猫头虎!今天给大家带来一条劲爆消息,智谱技术团队的最新大招——新清影,一款支持4K超清视频生成并自带音效的AI视频生成神器正式发布!本次升级让 AI 视频生成不再局限于“无声电影”,从此视频不仅有“画”还有“声”!👀📽️
猫头虎
2024/11/11
3140
告别“默片”时代!智谱新清影正式发布,生成 10 秒 4K60 帧 AI 视频
谷歌新AI模型在国际奥数竞赛达到银牌标准!OpenAI推出AI搜索引擎SearchGPT挑战谷歌!|AI日报
马斯克宣布“全球最大AI训练集群”投入使用!苹果、Mistral AI、英伟达、OpenAI加入小模型争霸赛!|AI日报
可信AI进展
2024/07/30
1390
智谱 AI 版Sora“清影”全量开放,官方附带发布提示词撰写智能体,30 秒即可快速生成
智谱 AI 于26日OpenDay宣布正式推出新一代AI视频生成产品 ——CogVideoX。
AIGC新知
2024/10/08
5610
智谱 AI 版Sora“清影”全量开放,官方附带发布提示词撰写智能体,30 秒即可快速生成
智谱AI上线4K60帧"新清影",还要直接开源,我觉得他们疯了。
但是最牛逼的是,他们直接宣布,把这个“新清影”背后的底层模型,也就是CogVideoX v1.5,直接开源了。。。
数字生命卡兹克
2025/04/14
1010
智谱AI上线4K60帧"新清影",还要直接开源,我觉得他们疯了。
🔥 智谱清影 🔥-CogVideoX-2b-部署与使用,带你揭秘生成6s视频的极致体验!
过去的技术常常在效率和质量之间挣扎,而现在,它的 3D 变分自编码器能将视频数据压缩至原来的 2%,大幅降低资源消耗,并保持视频帧的连贯性。
忆愿
2024/10/23
2850
🔥 智谱清影 🔥-CogVideoX-2b-部署与使用,带你揭秘生成6s视频的极致体验!
腾讯混元视频生成工具全新开源
今天,我们正式推出并开源全新的多模态定制化视频生成工具HunyuanCustom。
腾讯开源
2025/05/10
3000
腾讯混元视频生成工具全新开源
从文生图到文生视频,AI行业卷疯了
前不久,身穿太空服的马斯克瞬间进入二次元的视频在网上引起炸裂,让人不可思议的是,动画版的马斯克不仅神形兼备,背景和动作也非常连贯合理,而这一切都来自于一位斯坦福华人博士生设计的一款名叫“Pika”的视频生成工具。只需要在该软件的视频输入框内输入“马斯克穿着太空服,3D动画”的关键词,一个身穿太空服的卡通马斯克便能跃然于屏上。
刘旷
2023/12/26
4220
Sora 面世,视频生成的 GPT-3 时刻来了
2月16日凌晨,正值中国春节法定节假日期间,OpenAI 毫无预兆地发布了 AI 视频生成大模型 Sora。看过视频效果后,网友纷纷感叹「现实,不存在了。」
AI科技评论
2024/02/27
2360
Sora 面世,视频生成的 GPT-3 时刻来了
为什么AI视频生成会有更多的机会和可能?
随着深度学习技术的发展,特别是生成对抗网络(GAN)、变分自编码器(VAE)和基于流的模型(Flow-based model)等算法的应用,AI视频生成技术在画质、长度和连贯性上都有了显著提升。自回归模型和扩散模型的成功应用,使得视频生成更加连贯自然,尽管生成效率和错误积累仍是挑战。
张学良
2024/10/10
2350
为什么AI视频生成会有更多的机会和可能?
智谱AI再放“大招”,30秒将任意文字生成视频
7月26日的智谱Open Day上,在大模型赛道上动作频频的智谱AI,正式推出视频生成模型CogVideoX,并放出了两个“大招”:
Alter聊科技
2024/07/26
1960
智谱AI再放“大招”,30秒将任意文字生成视频
国产Sora来了,4K 60帧15秒视频刷新纪录!500亿美元短剧出海市场被撬动
不仅Stable Video立马上线了公测,而且Pika也随即拿出了给视频对口型的Lip Sync,以及可以根据内容自动生成声音的音效生成功能。
新智元
2024/03/13
2070
国产Sora来了,4K 60帧15秒视频刷新纪录!500亿美元短剧出海市场被撬动
快手「可灵」再进化!视频续写可达3分钟让全球网友炸锅
事情是这样的,这位网友的父亲需要做搭桥手术,为了给父亲鼓舞,他便试着用可灵AI把爷爷的两张老照片还原成了视频。
新智元
2024/06/27
3480
快手「可灵」再进化!视频续写可达3分钟让全球网友炸锅
【AIGC】内容创作——AI文字、图像、音频和视频的创作流程
近年来,生成式人工智能(AIGC,Artificial Intelligence Generated Content)技术迅速发展,彻底改变了内容创作的各个领域。无论是文字、图像、音频,还是视频,AI都在推动着创作流程的颠覆性变革。本文将详细介绍AIGC在内容创作中的应用,并分析其背后的技术及对未来的影响。
2的n次方
2024/10/15
1.1K0
【AIGC】内容创作——AI文字、图像、音频和视频的创作流程
视频生成赛道再添「猛将」,智谱清影正式上线
年初 Sora 横空出世,验证了 Scalling Law 在视频生成方面的有效性。但 Sora 始终止步于公开的 60 秒 demo,产品落地计划迟迟未有公开。
AI科技评论
2024/07/29
2590
视频生成赛道再添「猛将」,智谱清影正式上线
清华提出 Owl-1 全景世界模式:革新长视频生成,重塑视觉体验 !
随着图像生成模型的成功,视频生成也逐渐引起了广泛关注。尽管现有的视频生成模型(VGMs)已经达到了商用 Level 的性能,但所生成的视频时长仍然较短。长视频生成方法通过改善生成视频的长度和一致性来解决这一问题,促进了诸如视频扩展[35]、电影生成[40]和世界模拟[24]等多种新兴任务的发展。
AIGC 先锋科技
2025/02/12
1420
清华提出 Owl-1 全景世界模式:革新长视频生成,重塑视觉体验 !
阿里5.2kStar给Sora配音的EMO音视频项目开源了
阿里EMO项目开源了,但是是PPT!!!但在其项目页面仍然是一个不错的表现。
疯狂的KK
2024/03/07
5020
阿里5.2kStar给Sora配音的EMO音视频项目开源了
国内AI应用场景现有技术与产品简评
从2022年末ChatGPT进入大众视野开始,到现在LLM已经基本定型,技术路线虽然还在创新,例如moe架构,但基座模型基本上不会有大的变化,包括GPT本身,总是在藏着掖着有一个qstar版本,但实际上,无论哪家大模型,其底层思维逻辑不变,已成定局。也正是因为技术路线的固化,入局LLM基本变成了拼算力,也就是买显卡的money够不够多,只要资金雄厚,可以隔一段时间公布一个参数逆天的大模型,但是本质上,技术没有任何大的颠覆。
否子戈
2024/07/16
4800
国内AI应用场景现有技术与产品简评
[AI里程碑] Sora | 最强AI视频生成大模型
AI视频技术的发展历程可以追溯到2022年,当时初创公司Runway在这一领域取得了显著成就,其技术甚至被用于热门科幻电影《瞬息全宇宙》的视频编辑。此后,AI视频技术经历了快速的发展,Runway、Pika、Meta(Emu Video)等公司纷纷加入竞争。然而,早期的AI视频通常存在一些限制,如视频长度有限(通常只有几秒钟),场景逼真度不足,元素突然出现或消失,以及运动不连贯等问题,这些问题使得视频内容容易被识别为AI生成。
iResearch666
2024/03/13
6770
[AI里程碑] Sora | 最强AI视频生成大模型
推荐阅读
智谱AI刚刚把他们的Sora「清影」,正式开源了,我爱他们。
1360
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
2270
告别“默片”时代!智谱新清影正式发布,生成 10 秒 4K60 帧 AI 视频
3140
谷歌新AI模型在国际奥数竞赛达到银牌标准!OpenAI推出AI搜索引擎SearchGPT挑战谷歌!|AI日报
1390
智谱 AI 版Sora“清影”全量开放,官方附带发布提示词撰写智能体,30 秒即可快速生成
5610
智谱AI上线4K60帧"新清影",还要直接开源,我觉得他们疯了。
1010
🔥 智谱清影 🔥-CogVideoX-2b-部署与使用,带你揭秘生成6s视频的极致体验!
2850
腾讯混元视频生成工具全新开源
3000
从文生图到文生视频,AI行业卷疯了
4220
Sora 面世,视频生成的 GPT-3 时刻来了
2360
为什么AI视频生成会有更多的机会和可能?
2350
智谱AI再放“大招”,30秒将任意文字生成视频
1960
国产Sora来了,4K 60帧15秒视频刷新纪录!500亿美元短剧出海市场被撬动
2070
快手「可灵」再进化!视频续写可达3分钟让全球网友炸锅
3480
【AIGC】内容创作——AI文字、图像、音频和视频的创作流程
1.1K0
视频生成赛道再添「猛将」,智谱清影正式上线
2590
清华提出 Owl-1 全景世界模式:革新长视频生成,重塑视觉体验 !
1420
阿里5.2kStar给Sora配音的EMO音视频项目开源了
5020
国内AI应用场景现有技术与产品简评
4800
[AI里程碑] Sora | 最强AI视频生成大模型
6770
相关推荐
智谱AI刚刚把他们的Sora「清影」,正式开源了,我爱他们。
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档