降噪耳机在创造听觉空白方面已经非常出色。但允许佩戴者环境中的某些声音通过消除器传播仍然是研究人员面临的挑战。例如,苹果最新版 AirPods Pro 会自动调整佩戴者的音量——例如,感知他们何时在交谈——但用户几乎无法控制听谁说话或何时发生这种情况。
华盛顿大学的一个研究小组开发了一种人工智能系统,让戴着耳机的用户注视正在说话的人三到五秒钟,以“记录”他们的声音。该系统名为“目标语音听力”,然后会消除环境中的所有其他声音,只实时播放已记录的说话者的声音,即使听众在嘈杂的地方四处走动,不再面对说话者。
该团队于5月14日在檀香山举行的ACM CHI计算机系统人为因素会议上展示了其研究成果。概念验证设备的代码可供其他人使用,但该系统尚未上市。
华盛顿大学保罗·艾伦计算机科学与工程学院教授、资深作者Shyam Gollakota说道:“我们现在倾向于将人工智能视为基于网络的聊天机器人,用于回答问题,但在这个项目中,我们开发了人工智能,根据佩戴耳机的人的偏好来修改他们的听觉感知。有了我们的设备,即使你身处嘈杂的环境中,有很多人在说话,你现在也可以清楚地听到单个说话者的声音。”
要使用该系统,佩戴含麦克风的现成耳机的人需要点击按钮,同时将头转向正在说话的人。然后,来自该说话者声音的声波应同时到达耳机两侧的麦克风;误差幅度为16度。耳机将该信号发送到板载嵌入式计算机,团队的机器学习软件会在那里学习所需说话者的声音模式。系统会锁定该说话者的声音并继续将其播放给听众,即使这对说话者四处走动。随着说话者不断讲话,系统专注于已注册声音的能力会提高,从而为系统提供更多训练数据。
该团队对21名受试者测试了该系统,受试者对注册说话者声音的清晰度的评价平均几乎是未过滤音频的两倍。
这项工作以团队之前的“语义听觉”研究为基础,该研究允许用户选择他们想要听到的特定声音类别(例如鸟叫声或声音),并取消环境中的其他声音。
目前,TSH系统一次只能注册一个说话者,并且只有在没有其他与目标说话者声音相同方向的大声声音时,它才能注册说话者。如果用户对声音质量不满意,他们可以对说话者进行另一次注册以提高清晰度。该团队正在致力于未来将该系统扩展到耳塞和助听器。
领取专属 10元无门槛券
私享最新 技术干货