今年初,全球人工智能领域掀起了一场关于文生视频大模型Sora的热议,这是一款仅需一段文字指令就能生成逼真视频的模型。最近,我国自主研发的另一款文生视频大模型Vidu在2024年中关村论坛年会上首次亮相,这款模型以其“长时长、高一致性、高动态性”的特性引发了广泛关注。
清华大学人工智能研究院副院长、生数科技首席科学家朱军说,目前国内的视频大模型生成的视频时长大多为4秒左右,而Vidu则能够一次性生成长达16秒的视频。他还强调,Vidu生成的视频画面连贯流畅,随着镜头的移动,人物和场景在时间和空间上都能保持高度一致性。
在动态表现力上,Vidu的能力超乎想象。它能够生成复杂且动态的镜头,不仅局限于简单的推进、拉近或移动等基础镜头效果。更值得一提的是,它能在一个画面内实现远景、近景、中景和特写等各种镜头的无缝切换,甚至能直接生成长镜头、追焦和转场等复杂效果。
朱军进一步介绍:“Vidu能够模拟真实的物理世界,创造出细节丰富且符合物理规律的场景,比如合理的光影效果、精细的人物表情等。它还能创造出深度丰富且复杂的超现实主义内容。”他还指出,由于Vidu采用了“一步到位”的生成方式,视频片段能从头到尾连续生成,避免了明显的插帧现象。
此外,Vidu还能生成如熊猫、龙等各种形象,点击下面链接可观看原视频:
据了解,Vidu的技术突破来自于团队在机器学习和多模态大模型方面的长期积累。其核心技术架构早在2022年就已经由团队提出,并从此开始了持续的自主研发。朱军表示:“作为一款通用视觉模型,我们坚信,Vidu未来能够支持生成更多样化、更长时长的视频内容,探索各种生成任务。其灵活的架构也将兼容更广泛的模态,进一步推动多模态通用能力的边界。”