前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >「蚂蚁呀嘿」克星来了!中科院23岁博士生开发「听音识人」,准确率近90%

「蚂蚁呀嘿」克星来了!中科院23岁博士生开发「听音识人」,准确率近90%

作者头像
深度学习技术前沿公众号博主
发布2021-05-07 09:58:14
4610
发布2021-05-07 09:58:14
举报

转自:新智元

看脸和声音是否匹配,这种黑科技如今走向了现实。中科院计算所23岁的博士生温佩松主导开发出一种「听音识人」的 AI 技术,只需1秒就能将声音和正确人脸进行匹配,准确率接近 90%。

AI换脸」技术实际上蕴含着巨大的风险,只需上传一张照片,就可以让你的脸随着音乐蚂蚁呀嘿,欢乐的同时,也让人无从判断视频的真伪。

阿里安全图灵实验室的资深算法专家认为这项工作能够有效地降低伪造视频的风险,帮助公众进行辨别,保护用户的财产和信息安全。目前该研究成果已被 CVPR2021接收。

据温博士说,灵感来源于一个综艺节目,节目里川大教授听声音就可以判断长相。

经过调研以后,发现事情可行,当即开展了工作,主要研究方法就是找数据,搭模型。

主要创新点在于

1、引入一个两阶段模态对齐的损失函数,把局部信息和全局信息都引入进来

2、引入动态 reweighting 模式来发现不同对象之间的多样性

对于不同的匹配对来说,难度也是不同的(声优伪装?)。

主要的模型架构也是首先对face和voice分别进行编码,然后通过三个损失函数进行训练。

用到的数据集主要从VoxCeleb和VGGFace中构造。

道高一尺魔高一丈,如今声音也是可以通过模拟,例如高德导航的各种明星语音,也许未来还会有更强大技术的出现来对抗。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-04-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习技术前沿 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
人脸融合
人脸融合(Face Fusion)可将一张人脸图像对应的人脸特征融合到模板图像中的特定人物上,生成的图片既兼具指定图像和模板图像中的人脸特征,也保持了模板图像中人物的姿态、表情、动作等属性,支持单脸、多脸、选脸融合。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档