首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

谷歌AI新研究:文本生成3D模型,椅子可以是牛油果材质

此前,青亭网曾报道过一款用语音创作3D动画,加速3D和VR叙事内容创作的插件Anything World。该插件的概念足够简单,即通过AI算法实时识别语音指令,并生成对应的3D动画,比如动物、汽车等等。应用于VR游戏中,这样的技术可以为低门槛的沙盒体验带来可能。

实际上,随着AR/VR技术发展,对于3D内容创作的需求也越来越大,而低门槛、简易的3D创作工具,将有望吸引更多普通用户来创作3D内容,形成UGC生态。为了进一步探索自然语言生成3D图形的技术,谷歌科研人员研发了一款基于NeRF 3D场景技术,以及OpenAI文本生成模型DALL·E、CLIP的3D生成系统:Dream Fields。

据青亭网了解,Dream Fields的特点是无需照片样本就能生成3D图像,通过自然语言描述就可以合成全新的3D视角,还可以生成多种物品组合成的复合结构。谷歌科研人员称,Dream Fields效果媲美3D数字背景,或是ArtStation平台的内容。

结合OpenAI技术

在这项研究中,科研人员利用神经辐射场(NeRF)参数来代表3D图形,而神经辐射场的特点则是可分别渲染场景,场景中包含具有色彩和密度参数的多层感知器。

通常,通过NeRF方案生成3D场景需要多张3D照片,比如一组3D架子鼓可能合成了100张照片,来实现360°视觉重建。相比之下,Dream Fields不需要用照片来生成3D模型,而且可以生成全新的3D内容。实际上,Dream Fields算法在深度神经网络指导下,可以根据用户对3D对象的文本描述,以及一些简单的调整,即可显示几何结构和颜色信息。此外,还可以生成3D图形的全新视角,视觉效果足够连贯。

今年初,OpenAI发布了两大基于自然语言处理的图像生成模型DALL·E和CLIP,前者可通过文本生成图像(也就是可以读取文字来画画),而后者则可通过文本来分类图片。

据悉,DALL·E和CLIP也被看作是多模态图像版GPT-3(生成型预训练变换模型),这两种模型的AI算法使用图像与图像描述训练而成,因此可以评估文本描述是否与图像内容恰当匹配。而这的区别在于,OpenAI可通过CLIP来分类DALL·E生成的图像,提升图像生成的准确性。一些科研人员将也CLIP与VQGAN、BigGAN、StylGAN等生成模型结合,来实现根据文本描述生成图像的效果。

相比之下,谷歌的Dream Fields利用AI识别文本并生成3D图像,结合了CLIP和NeRF技术,可通过神经网络来储存3D模型。细节方面,Dream Fields的CLIP视觉转换架构是通过成对的2D照片和文字说明来训练的,未使用额外的多视角数据或3D模型。为了提升3D图像的视觉质量,Dream Fields还为其生成随机背景,并提升渲染图像的透光性。

在训练Dream Fields算法时,将需要多角度2D照片,完成训练后便可生成3D模型、合成新视角。而CLIP的作用,依然是评估文本生成图像的准确性。文本输入至Dream Fields后,未训练的NeRF模型会从单个视角生成随机视图,然后通过CLIP来评估生成图像的准确性。也就是说,CLIP可以用来纠正和训练NeRF模型生成图像。这个过程将从不同的视角重复2万次,直到生成符合文本描述的3D模型。

除了3D图形外,Dream Fields还生成深度图,效果看起来可信度高。Dream Fields的文本生成3D图形算法使用多样化的网络数据训练,因此可以识别和生成多种类型的物体。甚至可以合成物体,比如将扶手椅、茶壶以不同的风格和材质结合,或是生成大脑、珊瑚和木芙蓉的集合体等等。

3D领域的DALL·E方案

为了提升3D图像生成的效果,Dream Fields仅生成3D模型本身,而背景则采用随机合成图像。目前,Dream Fields可合成的物体包括船、花瓶、公共汽车、食物、家具等等。或是将牛油果和椅子合成,用大蒜扮演且,用皮卡丘做成牛油果椅子、茶壶等有趣的3D效果。

科研人员表示:通过Dream Fields,我们希望加速艺术内容和多媒体应用开发。

谷歌表示:由于缺少多样化、带文本描述的3D数据,此前方案能生成的3D内容类别有限。相比之下,Dream Fields通过预先训练的图像文本模型来生成3D图像,训练采用的数据来自于网络。

随着3D渲染技术发展,越来越多的媒体内容开始采用3D形式。在游戏、VR应用、电影中,开发者们需要手动创作数千个3D模型,耗费大量时间和精力,成本相当高。

此前,开发者利用3D数据来合成点云、立体像素网格、三角形网格,以及基于GAN模型的隐函数。不过,由于有标记的3D形状数据有限,所以3D数据仅能合成少数的物体类型。相比之下,Dream Fields不需要额外的3D训练数据,使用自然语言和简洁的创作界面即可合成3D图形。

同时,Dream Fields还证明了语言的合成/组成特性可提升3D创作的灵活性,更容易选择形状、色彩和风格。除了自然语言识别外,Dream Fields还采用NeRF 3D技术来合成新视角,重建3D立体图像。经过NeRF平滑插帧效果,3D图形具有足够高的空间分辨率,效果比立体像素、点云更好。此外,还比网格等明确的3D几何结构更容易优化,不受拓扑结构限制。参考:Google

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20211220A098YZ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券