首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

CCF-腾讯犀牛鸟基金项目课题介绍(二)——语音技术&自然语言处理技术

CCF-腾讯犀牛鸟基金由腾讯与中国计算机学会联合发起,旨在通过搭建产学合作平台,连接产业实践问题与学术科研问题,支持海内外优秀青年学者开展与产业结合的前沿科研工作。 2018年CCF-腾讯犀牛鸟基金共涵盖机器学习、计算机视觉及模式识别、语音技术、自然语言处理、大数据技术、区块链等6个重点技术领域,涉及31项研究命题。 上一期,我们介绍了机器学习、计算机视觉与模式识别两个申报主题,这期我们将介绍语音技术专题和自然语言处理技术专题。欢迎青年学者关注了解,希望大家可以从中找到适合自己的申报命题。 三、语音技

04

Nature子刊 | 纽约大学团队提出基于深度学习和语音生成技术的脑电-语音解码

神经信号的语音解码面临着两大挑战。首先,用于训练个性化神经到语音解码模型的数据在时间上是非常有限的,通常只有十分钟左右,而深度学习模型往往需要大量的训练数据来驱动。其次,人类的发音非常多样,哪怕是同一个人重复说出相同的单词,语速、语调和音调等也会有变化,这给模型构建的表征空间增加了复杂性。早期的解码神经信号到语音的尝试主要依赖于线性模型,模型通常不需要庞大的训练数据集,可解释性强,但是准确率很低。近期的基于深度神经网络,尤其是利用卷积和循环神经网络架构,在模拟语音的中间潜在表示和合成后语音质量两个关键维度上展开。例如,有研究将大脑皮层活动解码成口型运动空间,然后再转化为语音,虽然解码性能强大,但重建的声音听起来不自然。另一方面,一些方法通过利用wavenet声码器、生成对抗网络(GAN)等,虽然成功重建了自然听感的语音,但准确度有限。最近,在一个植入了设备的患者的研究中,通过使用量化的HuBERT特征作为中间表示空间和预训练的语音合成器将这些特征转换成语音,实现了既准确又自然的语音波形。然而,HuBERT特征不能表示发音者特有的声学信息,只能生成固定统一的发音者声音,因此需要额外的模型将这种通用声音转换为特定患者的声音。此外,这项研究和大多数先前的尝试采用了非因果(non-causal)架构,这可能限制其在需要时序因果(causal)操作的脑机接口实际应用中的使用。

01

CCF-腾讯犀牛鸟基金项目课题介绍(二)——语音技术&自然语言处理技术

CCF-腾讯犀牛鸟基金由腾讯与中国计算机学会联合发起,旨在通过搭建产学合作平台,连接产业实践问题与学术科研问题,支持海内外优秀青年学者开展与产业结合的前沿科研工作。 2018年CCF-腾讯犀牛鸟基金共涵盖机器学习、计算机视觉及模式识别、语音技术、自然语言处理、大数据技术、区块链等6个重点技术领域,涉及31项研究命题。 上一期,我们介绍了机器学习、计算机视觉与模式识别两个申报主题,这期我们将介绍语音技术专题和自然语言处理技术专题。欢迎青年学者关注了解,希望大家可以从中找到适合自己的申报命题。 三、语音技术专

012

智能语音扩展数字化服务

广义上来讲智能语音技术有各种各样的定义,以上是常见的一些热门的场景。语音识别,刚才罗老师也分享了部分内容。语音合成是文字变成语音,这部分我们后面会详细展开。再往后看,声纹识别,在智能车里面有很多的功能需要人的发音媒介来控制命令的时候声纹就很重要。开一个车门,车上有一个小孩,突然哭闹,下一个不合适的指令,你区别不出来这个人,对语音控制来说不合适的。或者有一些不当的操作,可以通过声纹来做,通过声音来做对人的识别和认证的过程。声纹识别其实在未来的应用场景比较热门,实际应用当中遇到大的挑战点是什么?很多其他的生物识别靠人脸或指纹这类比较稳定的特征,可是声纹不稳定,人高兴的时候,第一天晚上唱了卡拉OK,第二天声音哑了,怎么能够在变化比较明显的生物特征上做识别是一个很大的挑战。

05

倪捷:智能语音扩展数字化服务

广义上来讲智能语音技术有各种各样的定义,以上是常见的一些热门的场景。语音识别,刚才罗老师也分享了部分内容。语音合成是文字变成语音,这部分我们后面会详细展开。再往后看,声纹识别,在智能车里面有很多的功能需要人的发音媒介来控制命令的时候声纹就很重要。开一个车门,车上有一个小孩,突然哭闹,下一个不合适的指令,你区别不出来这个人,对语音控制来说不合适的。或者有一些不当的操作,可以通过声纹来做,通过声音来做对人的识别和认证的过程。声纹识别其实在未来的应用场景比较热门,实际应用当中遇到大的挑战点是什么?很多其他的生物识别靠人脸或指纹这类比较稳定的特征,可是声纹不稳定,人高兴的时候,第一天晚上唱了卡拉OK,第二天声音哑了,怎么能够在变化比较明显的生物特征上做识别是一个很大的挑战。

02
领券