昨日,谷歌Deep Mind团队发布基础世界模型Genie,一个虚拟生成的可交互环境110亿参数,通过给模型投喂视频数据进行训练,生成照片、草图甚至可以操控的虚拟世界。
从谷歌Genie目前展示的案例来看,这些视频非常卡通化。官网也表示:“我们专注于 2D 平台游戏和机器人技术的视频,但我们的方法是通用的,应该适用于任何类型的领域,并且可以扩展到更大的互联网数据集。”
与竞争对手OpenAI两周前火遍全球的文生视频模型Sora相同,Genie同样是一个“物理世界模拟器”,能够在虚拟世界中做物理世界的实验。
不同的是,#Sora# 是直接从文字生成视频,这更加“大力出奇迹”,且生成视频长度可达一分钟;而Genie从目前官网披露的情况看,大部分情况下需要先用文生图模型来生成起始帧图片,再用Genie 生成视频,且视频在一两秒左右,更像是动图。
领取专属 10元无门槛券
私享最新 技术干货