一人说一个尴尬的开会经历。我先说!
有一次出差,在电脑打开腾讯会议,另一边是线下会议室里激烈讨论的几个同事。一阵嗡嗡嗡后,轮到我发言,我一顿输出:刚刚XX说的很好,但我觉得这个问题的关键,是要找到关键的问题……
还没说完,收到同事的私信:刚不是XX在说话。
线上开会,「对齐一下」,是工作中常有的事情。如果连人都对不齐,就很尴尬。
我许愿:请AI,帮我把会议室里说话的人分出来。
许愿成功了。
腾讯天籁实验室,腾讯最会开会的实验室,也是腾讯会议背后的技术团队,一直致力于让开会这件事情更丝滑。
最近,他们又搞出了一些开会利器。
首先是多人分镜功能。
电脑前的你,在人多的时候,很难分辨清楚线下是谁在说话。
但AI可以。AI不仅听得清,还能把面对着同一个摄像头的四个人,分成四个视频小窗格,打在公屏上。让开会更高效,也让摸鱼更困难。
多人分镜的底层逻辑,其实是通过音视频多模态AI算法,快速识别不同的声纹、唇动等特征,追踪说话的人,准确分辨出不同的说话人。(注:腾讯会议与腾讯天籁不会储存发言人的声纹。)
识别不同说话人之后,AI还会始终帮你定位正在说话的人,让说话人处于镜头的C位,还可以在不同说话人之间快速切换。
哪怕他们像我的同事一样,喜欢开会的时候走来走去(是在换位思考?),AI也能持续定位到他。
第二个开会利器,是更优秀的去混响能力。
线上接入大型会议,是开会中特别难受的体验。在超大型空旷会议室,玻璃和墙面会让声音产生严重反射,产生混响。
混响,是声音在空间里反射、散射再传到你的耳朵中。混响严重的时候,你在线上听会,体验就像躲在大礼堂的三楼后座听领导讲话,领导一句话说完,声音的拖尾还继续传到你这里。
效果大概是这样:「我简单说两句,两句~句~」
为了解决混响问题,专业开会的天籁实验室,在3.0版本的天籁inside解决方案中,打造了业界领先的AI+16阵列麦的拾音矩阵,使得在房间里任何位置发言,都像面对面说话一样清晰。
第三是智能音幕。
在多人会议室中,旁边不免会有其他人窃窃私语,或是有环境噪音的干扰。
由于天籁inside的收音效果非常好,这些小声说话,也能被线上参会者收听到,反而很干扰听感。
比如说,有个朋友(真不是我),常常在开会的时候刷视频号,又被麦克风收音进去了,没少挨领导批评。
这个补丁不能不打上。天籁团队打造了「智能音幕」的功能。
它像是一道虚拟的音频屏障,可以让说话人的声音清楚呈现,同时屏蔽屏障外的声音。这一虚拟音频屏障还可以实时调整方向,灵活满足需求。
以上的种种能力,都由天籁inside 最新的3.0版本——16mic多模态人像分割解决方案提供。只要你的办公场所的设备装载了天籁inside,就可以使用「多人分镜」等开会利器。目前使用腾讯天籁insde解决方案的产品有这些:
接下来,天籁inside 解决方案也会持续开放给合作硬件厂商,提供全链路深度合作支持,从算法层、芯片层、硬件层到产品层,全方位护航产品研发。
以后,在所有贴有这个logo的硬件上,都能体验到天籁inside解决方案。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。