首页
学习
活动
专区
圈层
工具
发布

首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务

语音解码器 在从语音token进行语音合成方面,研究人员在Expresso数据集上训练了一个HifiGAN声码器,其依赖于HuBERT语音token和Expresso特定说话人的嵌入向量。...研究人员在Expresso数据集上训练了一个VQ-VAE模型,码本大小为64,下采样率为128,即每秒可以产生12.5个音高token;在训练音高量化器时,使用pyaapt8提取基频(F0);使用FCPE9...style(风格) token 研究人员提取了语音风格特征来捕捉输入语音的表达风,在输入片段上进行平均池化处理,每秒生成一个特征,然后在Expresso数据集上微调特征来预测表达风格,从而进一步从语音风格特征中去除说话人信息...,最后在Expresso数据集的规范化特征上训练了一个有100个单元的k均值聚类。...Hu234][Hu468] 表达性语音解码器(Expressive Speech Decoder) 研究人员训练了一个HifiGAN模型,依赖于HuBERT token、音高token、风格token以及来自Expresso

40500
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到
    领券