69岁邓丽君与30岁周深跨年跨时空，艺术3分钟，技术10年功

文章来源：企鹅号 - 斌哥说物联

2022跨年晚会最大亮点，莫过于69岁邓丽君（数字虚拟形象30岁左右）与30岁周深跨时空同台。一曲《大鱼》，合音部分充分发挥了周深唱功的天籁空灵、超稳气息与邓丽君虚拟人声的甜美干净、独特共鸣。舞台上，一女一男，一老一新；一唱一和，一张一弛；一颦一笑，一虚一实，逼真的全息呈现，令无数屏幕内外观众动容。

殊不知，台上一曲3分钟的合唱，台下技术攻关却用了10年有余。

要达到以假乱真的实时全息直播，需要融合以下技术：

1、3D建模。实现邓丽君人物实时全息投影，首先要对人物建模。要达到逼真/以假乱真的效果，就需要通过生平的影像和实物资料，建立数字化的3D模型。3D建模软件核心技术与标准掌握在欧美手中（AutoCAD/3DMAX/Maya/Rhino），欧美厂家在此领域深耕了10几20年，好莱坞的大片已经大量、成熟地应用3D建模工具了（可以说，万物可建模：人物/街道/城市/地球/外星球－比如阿凡达的潘多拉星球）；近年来在国家政策支持下，国产3D建模软件厂家陆续出现。在细分垂直领域与云化，或是国产3D建模团队的弯道超车的机会。

2、动作捕捉。模型有了后，还要动起来。而驱动模型的是数据，一整套基于真实人物动作的系列、连贯、自然的数据。而这些动作数据目前采集的比较好的手段，就是动作捕捉。同样，动作捕捉技术国人也在跟随阶段。动作捕捉需要三个阶段过程：一是传感器，高精度要求的位置传感器（陀螺仪/加速度传感器，或者用红外摄像机采集），采集位置信息/数据；二是传输器，数据如何传输，保存在本地后续处理软件，或是上云端应用；三是分析器，就是动作数据进一步建模（这里的建模是建立动作运动状态模型，运动场景模型，比如不同文字咬字发音的不同嘴型模型，拿麦克风及表演手势模型），对动作数据进行分类、分析，生成不同场景的可调用的场景分析模型，并在后续组合应用。

3、全息投影。全息投影技术难在投影介质。想像科幻电影中以空气为介质做全息投影，目前技术上还差10年左右。我们现在能看到的电视上的、展厅里的、博物馆内的全息投影，其背后技术得益于20年前高性价比的全息膜的发明与应用。目前全息投影更多用的是水雾（可以在音乐喷泉+水幕电影的升级版场景中看到）、激光旋转（各类科技展厅中在倒金字塔玻璃装置里，常看得到）还有45度全息膜（舞台表演常用）。

4、声音还原与合成。这块技术相对全息投影成熟些，但要达到随便采集个人声就能让这个人声合成歌曲，那还需要5－10年。人的声音本质是响度、音调和音色。模拟邓丽君声音的难度还是在音色和气息。讨巧的做法是先找一个跟邓丽君声音比较像的人声，做替身或声优，把预先的歌曲录制好，再在音色上，用现有市面上比较可用的工具（Vocaloid/UTAU/Cevio Creative Studio/MUTA），进行调整。

5、5G。实时的全息投影，先要对真人动作进行动作捕捉，然后再将捕捉数据赋到3D人物模型上，再通过全息投影将3D数字虚拟人投影出来。而这个实时过程的关键环节是数据传输效率，也就是数据的一致性和延迟。目前，在4G的通信水平下，VR传输大致有40秒延迟。这种延迟水平是完全没办法支撑直播。而实时的动作捕捉，则需要5G无延迟保障。在肉眼基本能接受的精度、清晰度下，5G的延迟也只能控制最多以100毫秒为单位。更为逼真的全息投影还需要3－5年后6G的技术加持。

春晚的洛天依、跨晚的邓丽君，用全息技术呈现数字虚拟人技术，仍不完善，仍在快速迭代中。技术的突破是迟早的事，但数字虚拟人，特别是用已故的知名人物，返场做数字虚拟人，总会有很多争议。不管是在伦理上，还是在法律，甚至是在哲学层面，都会让人深思技术的正反两面性。像是这次跨晚，线上伙伴表达的更多的是不建议、不理解、不赞同。不知道你是怎么想的，欢迎评论区评论。

发表于: 2022-01-022022-01-02 15:03:04
原文链接：https://kuaibao.qq.com/s/20220102A04CSK00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

69岁邓丽君与30岁周深跨年跨时空，艺术3分钟，技术10年功

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐