Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >数字人黑科技AD-NeRF面世,几分钟说话视频即可复刻,中科大等机构出品

数字人黑科技AD-NeRF面世,几分钟说话视频即可复刻,中科大等机构出品

作者头像
机器之心
发布于 2023-03-29 10:16:41
发布于 2023-03-29 10:16:41
1.1K0
举报
文章被收录于专栏:机器之心机器之心

机器之心专栏

作者:高天虹

你准备好迎接与数字人共生的赛博朋克世界了吗?

作为构建未来虚拟世界诸多应用的主干,如何创造栩栩如生的虚拟数字人,一直是计算机视觉、计算机图形学与多媒体等人工智能相关学科密切关注的重要研究课题。

近日,中国科学技术大学联合的卢深视科技有限公司、浙江大学与清华大学共同打造的 AD-NeRF 技术,引发了学界及业界关注。

来自中科大张举勇课题组等机构的研究者们在近期大火的神经辐射场(NeRF: Neural Radiance Fields)技术基础上,提出了一种由语音信号直接生成说话人视频的算法。仅需要目标人物几分钟的说话视频,该方法即可实现对该人物超级逼真的形象复刻和语音驱动。

论文地址:https://arxiv.org/pdf/2103.11078.pdf

项目地址:https://yudongguo.github.io/ADNeRF/

AD-NeRF 可由任意语音输入(本人或他人)生成高质量的说话视频。

「让虚拟人构建变得触手可及」

随着人工智能技术走向沉稳落地,转型探索新技术在社会中的实际应用,已经成为学术和工业界普遍达成的共识。在这一过程中,「数字虚拟人」无疑是主流视野下非常「吸睛」的一个概念。按照目标角色最终的呈现形态分类,数字虚拟人可以分为 2D 和 3D 类型,或是动漫、拟人和真实人物等种类。2021 年春晚,虚拟偶像洛天依首次被呈现在全国人民阖家团圆时刻的电视晚会舞台上。三月两会,央视网打造的数字虚拟记者「小 C」,则以生动的角色形象,承担起了同人大代表们实时连线,播报政策新闻的任务。

从上到下依次为三星虚拟数字人 Neon、虚拟偶像洛天依、电影角色阿丽塔。

据爱奇艺早前发布的《2019 虚拟偶像观察报告》,当今中国至少有 3.9 亿人正在关注虚拟偶像。在抖音、快手和 B 站等各大短视频平台上,至少活跃着上万名数字虚拟人主播。不仅在泛娱乐领域,数字虚拟人还为其他一系列社会化应用提供了广阔的想象空间:虚拟医生、虚拟教师、虚拟客服、虚拟导购等等。

作为人机交互的重要媒介,如何高效构建虚拟人逼真的外表形象、自然的神态与动作,一直是该领域备受关注的研究热点。其中,基于传统计算机图形学与动画制作技术,构建生动且逼真的虚拟人行为动态(如与语音内容符合的嘴型与表情等)需要专业且复杂的人力工作,这大大限制了虚拟数字人的广泛应用。近年来,基于深度学习方法的虚拟人构建技术取得了较好的突破。然而,现有基于学习的方法中,无论是基于图像的生成对抗网络(GAN)方法,还是基于三维人脸重建模型的人脸编辑 - 渲染方法,存在依赖大量训练数据、生成结果质量不佳等问题。以 2017 年 Suwajanakorn 等人提出的 SynthesizingObama 工作为例,为了实现针对奥巴马单一角色的语音驱动,该方法使用了奥巴马本人高达 14 个小时的视频训练数据,才能保证最终较好的图像和视频效果。而众多基于 GAN 的人脸语音驱动工作,则受限于 GAN 模型本身的训练复杂度,通常只能输出不超过 256x256 分辨率的视频结果。

基于 GAN 的方法生成图像分辨率低,而基于神经辐射场渲染的 AD-NeRF 支持任意分辨率渲染。

在 AD-NeRF 方法中,仅需要目标人物三至五分钟的说话视频,即可实现任意语音驱动该人物的效果。不仅如此,其生成结果具有高清的图像质量和自然的面部神态,更是远胜于此前的方法。这种「价廉物美」的方法,仅需要少量训练数据即能生成高质量的最终结果,无疑是为创造虚拟人形象提供了一个强大且便捷的工具。

人脸魔术是如何做到的?

下面的示例图显示了 AD-NeRF 工作的算法流程框架:

(1)语音到动态神经辐射场的跨模态映射:为了刻画说话人脸、躯干以及背景的高质量细节与动态,作者们将 DeepSpeech 语音特征同最新的神经辐射场方法(NeRF)相结合,即建模一个隐式函数 F,其输入包括假设的相机位置,视线方向,以及对应的语音特征,输出沿每条射线上连续位点的颜色与密度值,通过沿射线积分,确定该射线指向的像素点的最终颜色值。

(2)完整、稳定的头部与身体躯干合成:针对人脸说话过程中脸部与躯干运动并非完全统一的现象,作者们将原始的神经辐射场模型拆分成了两个各自分工的隐式模型表示。首先,他们对训练数据中每帧图像进行了语义分割,其中人脸部分使用多帧连续光流估计出三维运动参数,直接转换为假设的相机外参,用于训练针对人头部分的神经辐射场。而身体模块,则在人头模型的基础上,将人头运动参数作为额外的条件信息,用于控制身体部分的建模。这一设计带来的明显好处是解决了头部 - 身体姿态不一致带来的抖动效应:

(3)支持背景与视角编辑:由于神经辐射场所刻画的隐式三维信息,作者们还进一步探索了任意替换背景和改变观测角度的后续应用。而要实现这些应用,只需要在输入测试音频的同时,改变假设的相机外参以及背景图片即可。这些应用的示例可参见下图:

AD-NeRF 带来了哪些可能性?

曾几何时,数字人还是一个备受科幻小说和电影喜爱的赛博朋克题材;如今,随着一项项数字虚拟人创作技术的迭代更新,这一充满未来感的概念正以前所未有的速度走入寻常百姓家。那么,AD-NeRF 究竟会给哪些实际的虚拟人应用带来技术上的可能性呢?

首先是在视频会议领域,正如上文中所展示的一样,AD-NeRF 可以轻松支持对任意人物形象的语音驱动。对于带宽需求较大的视频会议应用而言,可能将不再需要实时传输视频的编解码信号,而只需音频信号即驱动说话人本身的虚拟形象。而 AD-NeRF 所支持的背景替换和姿态编辑,搭配起 AR 头盔等设备,更是可以让你恍如身临其境一般,在一个可以任意创作的三维情景中同对方对话。

其次,由于 AD-NeRF 仅仅需要几分钟的视频用于训练特定人物形象的动态辐射场。假如你想留下某个至亲好友的数字形象,永远能够同他面对面交流,那么 AD-NeRF 的算法设计,将大大简化这个数字形象的制作难度——在赛博空间永生或许不再是一场梦。

最后,AD-NeRF 对于改善当前商用的数字虚拟人搭建流程,无疑具有强大的潜力。无论是创造逼真的虚拟主播,亲切的虚拟导购,或是严肃的虚拟教师等等,AD-NeRF 都可以「手到擒来」。只需要一个表现力丰富的演员录制一段语音视频,剩下的就可以交给自动化的语音驱动技术了,其在商业创新上的应用前景非常广阔。

在拥有强大技术赋能的同时,另一方面,越来越低的门槛和数据需求也让数字虚拟人的创作面临着诸多风险与争议。比如用假冒的数字形象盗取他人的财产或者伪造视频散布虚假新闻,甚至是用于故意贬损他人侮辱人格等现象。去年,以 DeepFake、Zao 等一系列「AI 换脸」的人工智能应用,就曾经引发了全社会基于道德和隐私层面广泛的讨论,相应的,在学术界也催生了一系列以 DeepForensics 为主题的「换脸检测」研究。

现在,AD-NeRF 从应用层面以一种更为高级的底层算法,即通过神经辐射场隐式地建模三维运动细节,渲染了完整且逼真的图片帧,对于真假人脸视频的判别和检测,也提出了更有价值的挑战。

「魔高一尺,道高一丈」,出于安防和隐私保护的需求,更多强大的防伪和检测算法在未来势必与虚拟人技术一道,成为共同竞技和发展的双子星。站在公平与正义的角度,虚拟人这一数字时代的产物,同样需要被纳入法律法规和行业条例的约束之中。相信在未来,虚拟数字人将成为智能方便可信赖的代名词,为改善这个世界的信息交流与人际互动提供更大的帮助。

建新·见智 —— 2021亚马逊云科技 AI 在线大会

4月22日 14:00 - 18:00

大会包括主题演讲和六大分会场。内容涵盖亚马逊机器学习实践揭秘、人工智能赋能企业数字化转型、大规模机器学习实现之道、AI 服务助力互联网快速创新、开源开放与前沿趋势、合作共赢的智能生态等诸多话题。

亚马逊云科技技术专家以及各个行业合作伙伴将现身说法,讲解 AI/ML 在实现组织高效运行过程中的巨大作用。每个热爱技术创新的 AI/ML 的爱好者及实践者都不容错过。

识别二维码或点击阅读原文,免费报名看直播。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-04-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CVPR 2022 | 实时渲染、可直接编辑,中科大提出高保真人头参数化模型HeadNeRF
机器之心发布 作者:中科大张举勇课题组 《黑客帝国: 觉醒》演示中的灵魂发问:当我们打造出的世界和我们自己的世界同等真实时,那现实到底意味着什么? 还记得去年 12 月,美国电子游戏与软件开发公司 Epic 发布的基于自家虚幻 5 打造的《黑客帝国: 觉醒》的演示吗?Demo 中所展示的主演人物的毛孔毛发级高真实感建模,着实让人惊叹 Epic 的强大技术能力。 据悉,以上演示 Demo 中的人物形象是由 Epic 名下的 MetaHuman Creator 创建生成,该应用可以让用户自由编辑调整目标数字形
机器之心
2022/05/16
1K0
CVPR 2022 | 实时渲染、可直接编辑,中科大提出高保真人头参数化模型HeadNeRF
7 Papers & Radios | 几分钟说话视频实现虚拟数字人复刻;ICLR 2021八篇杰出论文
机器之心 & ArXiv Weekly Radiostation 参与:杜伟、楚航、罗若天 本周的重要论文包括斯坦福大学和谷歌大脑的研究者提出了基于随机微分方程(SDE)的分数生成式建模、DeepMind 的研究者提出的使用图神经网络来学习网格模拟的模型 MeshGraphNets等。 目录: Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks Score-Based Generative Modeling
机器之心
2023/03/29
3820
7 Papers & Radios | 几分钟说话视频实现虚拟数字人复刻;ICLR 2021八篇杰出论文
基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 2023
近日,国际语音及信号处理领域顶级会议 ICASSP2023 在希腊成功举办。大会邀请了全球范围内各大研究机构、专家学者以及等谷歌、苹果华为、Meta AI、等知名企业近 4000 人共襄盛会,探讨技术、产业发展趋势,交流最新成果。
机器之心
2023/08/07
6880
基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 2023
ICLR 2024 | 单图三维重建数字虚拟人,浙大&字节提出Real3D-Portrait算法
近期虚拟人方面的应用如同雨后春笋一般涌现出来。你是否在很多 App 中,看到了 AIGC 让单张照片开口说话的能力?尽管已经能够拥有清晰的画质和准确的口型,但现有的单图驱动虚拟人似乎还差了一点:呈现的结果中说话人往往采用和原图中说话人接近的头部姿态,无法像真人一样在画面中自由地运动。这是因为目前采用的技术无法对图片中说话人在 3D 世界中进行建模,因此在大姿态驱动的情况下会出现效果急剧下降的问题。
机器之心
2024/02/26
5760
ICLR 2024 | 单图三维重建数字虚拟人,浙大&字节提出Real3D-Portrait算法
《探索视频数字人:开启未来视界的钥匙》
在当今科技飞速发展的时代,视频数字人技术如一颗璀璨的新星,正逐渐成为各领域瞩目的焦点。它的出现,犹如一场科技风暴,彻底改变了传统的视频制作方式,为各个行业带来了前所未有的机遇与挑战。
正在走向自律
2024/12/18
3630
《探索视频数字人:开启未来视界的钥匙》
大模型应用于数字人
大模型会改变整个软件行业, 其中具有代表性的产品之一是数字人, 那么,什么是数字人呢?数字人涉及了哪些关键技术呢?大模型对数字人的发展带来哪些影响呢?
半吊子全栈工匠
2023/11/07
1.3K0
大模型应用于数字人
每日学术速递5.3
作者:Hsuan-I Ho, Lixin Xue, Jie Song, Otmar Hilliges
AiCharm
2023/05/16
4650
每日学术速递5.3
五官乱飞,张嘴、瞪眼、挑眉,AI都能模仿到位,视频诈骗要防不住了
你前脚让自己的五官乱飞,后脚,一模一样的表情就被复现出来,瞪眼、挑眉、嘟嘴,不管多么夸张的表情,都模仿的非常到位。
机器之心
2023/12/12
4040
五官乱飞,张嘴、瞪眼、挑眉,AI都能模仿到位,视频诈骗要防不住了
3D大模型助力,15分钟即可训练高质量、个性化的数字人模型,代码已开放
本文的作者主要来自于浙江大学和字节跳动。第一作者是浙江大学计算机学院的博士生叶振辉,导师为赵洲教授,主要研究方向是说话人视频合成,并在 NeurIPS、ICLR、ACL 等会议发表相关论文。共一作者是来自浙江大学计算机学院的硕士生钟添芸。
计算机视觉研究院
2024/11/01
3050
3D大模型助力,15分钟即可训练高质量、个性化的数字人模型,代码已开放
一文带你了解AI虚拟数字人!
据艾媒咨询,2025年中国虚拟人市场规模预计达480.6亿元,用户群体主要为中型及小微型企业,产品需求量TOP5分别是电商、卫生、社会保障和社会福利业、教育、金融和运输业,主要产品类型为数字员工及定制化数字人。
朱晓霞
2024/03/14
15.2K1
一文带你了解AI虚拟数字人!
数字人深度报告!元宇宙下的爆火概念,技术和应用一文看懂
虚拟数字人指存在于非物理世界中,由计算机手段创造及使用,并具有多重人类特征(外貌特征、人类表演能力、交互能力等)的综合产物。虚拟数字人可按人格象征和图形维度划分,亦可根据人物图形维度划分。人物形象、语音生成模块、动画生成模块、音视频合成显示模块、交互模块构成虚拟数字人通用系统框架。
科技旋涡
2022/03/30
1.8K0
数字人深度报告!元宇宙下的爆火概念,技术和应用一文看懂
腾讯多项AI黑科技亮相SIGGRAPH Asia 2018
你的脑洞,在这里都已实现:虚拟人Siren、AI画师YUI、腾讯丽影、智慧商超、智能弹幕、微派机器人······ 2018年12月4日到7日,第11届SIGGRAPH Asia在日本东京举行。作为国际顶级专业学术会议,SIGGRAPH Asia从2008年起每年召开,这也是有计算机图形图像研究领域“奥斯卡”之称的SIGGRAPH唯一的分会。SIGGRAPH Asia 2018汇聚了全球从事科研(硬件、软件)、电影、游戏、艺术、动画、人机交互、教育和新兴技术等方向的最前沿的专家、创意人员以及爱好者,
腾讯高校合作
2018/12/08
1.5K0
腾讯多项AI黑科技亮相SIGGRAPH Asia 2018
2022年虚拟人行业研究报告
虚拟数字人指存在于非物理世界中,由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用,并具有多重人类特征(外貌特征、人类表演能力、人类交互能力等)的综合产物。虚拟人可分为服务型虚拟数字人、身份型虚拟数字人。
资产信息网
2022/03/22
1.8K0
2022年虚拟人行业研究报告
数字人全集
查阅了下资料,这种驱动数字人属于 First order motion model
mixlab
2022/04/16
3.6K1
数字人全集
科技感拉满,盘盘这届冬奥会的虚拟数字人
当然,这并不是谷爱凌不务正业。因为在咪咕演播室里的其实并不是谷爱凌本人,而是她的“数字分身”Meet GU。
科技云报道
2022/04/16
9320
科技感拉满,盘盘这届冬奥会的虚拟数字人
AI数字人:AI数字人制作初探及相关开源简介
数字人这名字听着稀奇又别扭,其实它最初的原型大家都听过——NPC。玩过游戏的应该都知道,也就是游戏内玩家操纵的游戏角色,可以和玩家进行交互的角色。广义上讲可以说是计算机模拟出的具有人的形态的虚拟人都叫做数字人,在平常的观感上,数字人是整合了人物形象模拟、人物声音克隆、自然语言处理、知识图谱解析等众多世界领先的人工智能技术的可视化数字虚拟人。他通过对人物形象的复制模拟,人物声音的克隆及语音合成,可随时随地与真人进行准确交互性对话。
Freedom123
2024/03/29
1.1K1
AI数字人:AI数字人制作初探及相关开源简介
深度剖析AI机会,数字人智能对话系统:未来的人机交互新范式
随着人工智能时代的到来,大模型的技术日新月异,我们不仅仅满足于文字之间的交互,希望能够有更近一步的交流。既然现在文字已经能够很好的模拟人类了,那随之而来的,是不是我们能够通过模拟人类交流的方式来交互。
Datawhale
2024/06/19
2K0
深度剖析AI机会,数字人智能对话系统:未来的人机交互新范式
NeRF作者简述NeRF的历史与发展
文章:NeRFs: The Search for the Best 3D Representation
点云PCL博主
2023/12/28
1.2K0
NeRF作者简述NeRF的历史与发展
今天这个「主播」,有点不一样!
---- 新智元报道   编辑:好困 【新智元导读】万物皆可播,人人皆主播。不过现在直播间里和你对话的可不一定是个「真人」了哦。 直播带货,这有啥新鲜的? 别急,今天给你来点儿不一样的。 请看上面这两位长相差不多的主播,像不像是一对双胞胎? 但实际上,她们是「同一个人」! 至于原因,这里先卖个关子。 半夜还要直播,太「费人」了吧 我们先说说直播带货这件事。 顾名思义,重点就是为了「带货」。 但每次都要卡着点进去,一不小心就会错过。 一来二去,可能也就不想再看了。 商家们似乎也发现了这个问题,于是虚拟带
新智元
2022/05/17
1.8K0
今天这个「主播」,有点不一样!
AI版“创造101”来了!出单曲拍电视剧,真人偶像失业危机?
最近,韩国人工智能公司Pulse 9推出了一个完全由AI打造的韩国流行音乐女团,Eternity。Pulse 9通过该公司研发的“Deep Real”技术打造了11位AI女团成员,并发布了单曲MV“I’m Real”。该单曲在YouTube上的播放量达到67万。
大数据文摘
2021/07/06
1.3K0
推荐阅读
相关推荐
CVPR 2022 | 实时渲染、可直接编辑,中科大提出高保真人头参数化模型HeadNeRF
更多 >
领券
社区新版编辑器体验调研
诚挚邀请您参与本次调研,分享您的真实使用感受与建议。您的反馈至关重要,感谢您的支持与参与!
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
首页
学习
活动
专区
圈层
工具
MCP广场
首页
学习
活动
专区
圈层
工具
MCP广场