首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >ICASSP 2022语音信号处理技术全景概览

ICASSP 2022语音信号处理技术全景概览

原创
作者头像
用户11764306
发布2025-10-26 06:24:03
发布2025-10-26 06:24:03
790
举报

ICASSP 2022:某中心50余篇论文技术指南

某中心研究人员在本年度声学、语音与信号处理国际会议上发表了50多篇论文。其中多数聚焦于自动语音识别及相关主题,如关键词识别和说话人识别,但也涉及计算机视觉和联邦学习等更广泛的领域。

声学事件检测

  • 联邦自监督声学事件分类学习:Meng Feng等人提出结合联邦学习和自监督学习的方法
  • 基于树状结构本体的改进声学事件分类表示学习:Arman Zharmagambetov等人利用本体论提升分类性能
  • WikiTAG:基于维基百科的知识嵌入改进声学事件分类:Qin Zhang等人融合知识图谱增强模型表现

自动语音识别

  • 基于似然比的端到端模型领域自适应方法:Chhavi Choudhury等人提出领域适应新方法
  • 贪心采样策略无损端到端语音识别:Jahn Heymann等人证明贪心策略的有效性
  • 缓存网络:利用通用语音优化ASR:Anastasios Alexandridis等人提出共享语音特征方法

在"LATTENTION: ASR重评分中的网格注意力机制"中,研究人员展示了将注意力机制应用于编码多个ASR假设的网格能提升识别性能。

计算机视觉

  • ASD-transformer:使用自注意力和多模态transformer的高效主动说话人检测
  • 动态剪枝SegFormer实现高效语义分割
  • 具有时间感知的对比学习增强音频-视觉表示生成

联邦学习

  • 联邦学习挑战与机遇展望:Jie Ding等人分析联邦学习现实应用问题
  • 实际联邦学习经验总结:Christophe Dupuy分享实际部署经验

其他技术领域

  • 信息检索:基于对比知识图谱注意力的食谱推荐
  • 机器翻译:用于自动配音的等距神经机器翻译
  • 自然语言理解:自动发现新领域和意图的ADVIN系统
  • 个性化:增量用户嵌入建模实现个性化文本分类

信号处理与语音合成

  • 深度自适应声学回声消除:结合深度学习和传统方法
  • 基于风格转换的上混音技术:使用变分自编码器分离空间图像和音乐内容
  • 神经语音合成效率优化:改进LPCNET的效率表现

时间序列预测

  • 基于回溯测试自助法和自适应残差选择的鲁棒非参数分布预测

这些研究成果涵盖了语音信号处理的多个前沿方向,展示了在自动语音识别、多模态学习、联邦学习等领域的技术创新和实际应用突破。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • ICASSP 2022:某中心50余篇论文技术指南
    • 声学事件检测
    • 自动语音识别
    • 计算机视觉
    • 联邦学习
    • 其他技术领域
    • 信号处理与语音合成
    • 时间序列预测
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档