2022跨年晚会最大亮点,莫过于69岁邓丽君(数字虚拟形象30岁左右)与30岁周深跨时空同台。一曲《大鱼》,合音部分充分发挥了周深唱功的天籁空灵、超稳气息与邓丽君虚拟人声的甜美干净、独特共鸣。舞台上,一女一男,一老一新;一唱一和,一张一弛;一颦一笑,一虚一实,逼真的全息呈现,令无数屏幕内外观众动容。
殊不知,台上一曲3分钟的合唱,台下技术攻关却用了10年有余。
要达到以假乱真的实时全息直播,需要融合以下技术:
1、3D建模。实现邓丽君人物实时全息投影,首先要对人物建模。要达到逼真/以假乱真的效果,就需要通过生平的影像和实物资料,建立数字化的3D模型。3D建模软件核心技术与标准掌握在欧美手中(AutoCAD/3DMAX/Maya/Rhino),欧美厂家在此领域深耕了10几20年,好莱坞的大片已经大量、成熟地应用3D建模工具了(可以说,万物可建模:人物/街道/城市/地球/外星球-比如阿凡达的潘多拉星球);近年来在国家政策支持下,国产3D建模软件厂家陆续出现。在细分垂直领域与云化,或是国产3D建模团队的弯道超车的机会。
2、动作捕捉。模型有了后,还要动起来。而驱动模型的是数据,一整套基于真实人物动作的系列、连贯、自然的数据。而这些动作数据目前采集的比较好的手段,就是动作捕捉。同样,动作捕捉技术国人也在跟随阶段。动作捕捉需要三个阶段过程:一是传感器,高精度要求的位置传感器(陀螺仪/加速度传感器,或者用红外摄像机采集),采集位置信息/数据;二是传输器,数据如何传输,保存在本地后续处理软件,或是上云端应用;三是分析器,就是动作数据进一步建模(这里的建模是建立动作运动状态模型,运动场景模型,比如不同文字咬字发音的不同嘴型模型,拿麦克风及表演手势模型),对动作数据进行分类、分析,生成不同场景的可调用的场景分析模型,并在后续组合应用。
3、全息投影。全息投影技术难在投影介质。想像科幻电影中以空气为介质做全息投影,目前技术上还差10年左右。我们现在能看到的电视上的、展厅里的、博物馆内的全息投影,其背后技术得益于20年前高性价比的全息膜的发明与应用。目前全息投影更多用的是水雾(可以在音乐喷泉+水幕电影的升级版场景中看到)、激光旋转(各类科技展厅中在倒金字塔玻璃装置里,常看得到)还有45度全息膜(舞台表演常用)。
4、声音还原与合成。这块技术相对全息投影成熟些,但要达到随便采集个人声就能让这个人声合成歌曲,那还需要5-10年。人的声音本质是响度、音调和音色。模拟邓丽君声音的难度还是在音色和气息。讨巧的做法是先找一个跟邓丽君声音比较像的人声,做替身或声优,把预先的歌曲录制好,再在音色上,用现有市面上比较可用的工具(Vocaloid/UTAU/Cevio Creative Studio/MUTA),进行调整。
5、5G。实时的全息投影,先要对真人动作进行动作捕捉,然后再将捕捉数据赋到3D人物模型上,再通过全息投影将3D数字虚拟人投影出来。而这个实时过程的关键环节是数据传输效率,也就是数据的一致性和延迟。目前,在4G的通信水平下,VR传输大致有40秒延迟。这种延迟水平是完全没办法支撑直播。而实时的动作捕捉,则需要5G无延迟保障。在肉眼基本能接受的精度、清晰度下,5G的延迟也只能控制最多以100毫秒为单位。更为逼真的全息投影还需要3-5年后6G的技术加持。
春晚的洛天依、跨晚的邓丽君,用全息技术呈现数字虚拟人技术,仍不完善,仍在快速迭代中。技术的突破是迟早的事,但数字虚拟人,特别是用已故的知名人物,返场做数字虚拟人,总会有很多争议。不管是在伦理上,还是在法律,甚至是在哲学层面,都会让人深思技术的正反两面性。像是这次跨晚,线上伙伴表达的更多的是不建议、不理解、不赞同。不知道你是怎么想的,欢迎评论区评论。
领取专属 10元无门槛券
私享最新 技术干货