前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >万字长文 | 让大模型“开口”说话:从ASR到端到端语音大模型的进化之旅

万字长文 | 让大模型“开口”说话:从ASR到端到端语音大模型的进化之旅

作者头像
AI研思录
发布2025-02-20 19:42:30
发布2025-02-20 19:42:30
3200
举报
文章被收录于专栏:AI研思录AI研思录

在这个数字化时代,我们见证了科技的飞速发展,尤其是人工智能领域的突破性进展,表现为当前火热的大模型以及衍生应用。在人机交互领域中,从简单的文本处理到复杂的语音识别、文本生成和语音合成,这些技术不仅改变了我们的生活方式,也为企业和个人提供了前所未有的机遇。

我们将分两期进行探讨,如何让大型语言模型(LLM)“发声”,

  • 第一期(语音三剑客):围绕从文字到声音的互相转换,以及这一过程中的关键技术——自动语音识别(ASR)、文本转语音(TTS)。三剑合璧,称霸江湖长达60年之久。
  • 第二期(任我行):聚焦最新的端到端语音大模型,解析其原理和应用,如moshi、Mini-Omni等。光明顶上的任我行终会以独门武功再次独领风骚。

第一期-语音三剑客:ASR、LLM与TTS的组合,

在我们日常生活中,语音助手已经变得越来越普遍。无论是苹果的Siri还是小米的小爱同学,它们都在以惊人的速度渗透到我们的日常生活中。这些语音助手不仅能够帮我们查询天气、设定闹钟,还能与我们进行对话,提供个性化的建议和服务。我们不禁要问,这些智能语音助手是如何做到如此智能、自然地与我们交流的?

实际上,当前的Siri和小爱同学的每一句话背后都依赖于三项核心技术(未来可能就是端到端语音了):自动语音识别(ASR)、自然语言处理(NLP)、文本到语音转换(TTS)。这三项技术共同作用,使得语音助手能够理解我们的语言,进行有效的对话,并用自然的语音进行回应。

接下来将详细介绍这三项技术,揭示它们如何协同工作,为我们带来便捷而智能的语音助手体验。

  • ASR:负责将人的语音转化为机器可读的文字,是语音输入的第一步。
  • NLP:处理文本数据,包含了理解、生成或匹配文本内容,是连接语音与文本的关键桥梁,是实现用户提问到机器回答的关键环节,决定了机器的智商。通常包含了规则处理、意图识别、QA匹配,当然最新的LLM可以局鼎这一切。
  • TTS:将文本转换成自然流畅的语音输出,使得机器能够“说话”。

自动语音识别(ASR)

自动语音识别(Automatic Speech Recognition,ASR)是一种能够将人类的语音转换为计算机可以理解和处理的文本的技术。它通过分析和处理音频信号,识别其中的语音内容,并将其转化为文字输出。 这种组合虽然有效,但也存在一些局限性,比如需要大量的预处理和后处理工作,以及各个组件之间的兼容性和协调问题。

ASR的核心功能是将语音转换为文本。具体过程包括以下几个步骤:

  1. 语音信号捕获:通过麦克风或其他音频输入设备捕获用户的语音信号。
  2. 预处理:对语音信号进行噪声抑制、语音增强等预处理,以提高识别的准确性。
  3. 特征提取:将预处理后的语音信号转换为特征向量,这些特征向量能够反映语音信号的声学特征。
  4. 声学模型:利用声学模型将特征向量映射到语音单元(如音素)。
  5. 语言模型:利用语言模型将识别的语音单元组合成连贯的文本。
  6. 后处理:对初步识别的文本进行拼写校正、标点符号添加等处理,以提高文本的可读性。

首先我们知道,声音的本质是一种波。我们比较熟知的mp3格式的文件则都是压缩格式,在asr中我们往往需要转成非压缩的纯波形文件来处理,如wav文件,wav文件中存储的除了一个头文件以外就是声音的波形。

声音波形示意图

往往在处理一个一段声音的波形的时候需要切除波形的首段和尾端的静音部分,降低对后续步骤的干扰,这个静音切除的操作我们称之为VAD,在对声音的波形进行分析的时候需要对声音进行分帧,在分帧之后我们需要进行特征提取,组成一个矩阵,然后通过声学模型将矩阵映射到一个个音素及语音单元(对英语,一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集,汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调无调等等)然后利用语言模型将一个个单元组合成一个连贯的文本。

音频切分示意图

典型ASR网络的音频切分模块有CTC: 当输入是连续的,输出是离散的,且没有明确的元素边界可以用来将输入映射到输出序列的元素时,使用CTC来对齐输入和输出序列。因为CTC会自动进行对齐。模型中卷积网络输出的特征图被分割成单独的帧输入到循环网络中。每帧对应于原始音频的某个时间步长。但帧数和每帧的持续时间是在设计模型时选择作为超参数的。对于每一帧,循环网络和线性分类器从词汇表中预测每个字符的概率。

CTC

端到端的ASR也可以用CNN、RNN、LSTM等深度学习现代化方法来训练音频向量到文字的对应关系。

CNN等网络示意图

CNN等网络示意图

而在我们的日常生活中ASR技术在许多实际应用中发挥着重要作用,如语音输入法,就是一种利用ASR技术的输入方式,用户可以通过语音输入文字,而不需要使用键盘进行打字。在手机、平板等移动设备上,语音输入比手动打字更加快捷方便。对于有视力障碍或行动不便的人群,语音输入提供了更便捷的操作方式。

常见的语音识别库有:SenseVoice、Whisper等

从语音识别结果到回答文本的生成(LLM)

这里我们不再赘述NLP中的意图识别等环节了,统一介绍最新称霸江湖的NLP技术大模型

预训练

一切的起点是大规模的预训练。

在这个阶段,模型会接受海量文本数据的洗礼,包括互联网上的各类文章、书籍、社交媒体内容等。通过自注意力机制和其他复杂的神经网络架构,模型学习语言的统计规律、词汇间的关联性以及长距离依赖关系。预训练使模型具备了对广泛话题的基础理解和生成连贯文本的能力,但此时模型尚不能很好地执行具体任务或遵循指令。

想象一下,如果要教一个孩子说话,首先得让他听到足够多的语言吧?大语言模型的起点正是如此——预训练(Pretraining,Generitive Pre-trained Transformer基础模型,一般按周或者月为训练单位)。在这个阶段,模型会“阅读”海量的网络文本,就像海绵吸水一样,吸收各种语言表达和知识。 不过,这时的模型还只是个“复读机”,虽有丰富的语言素材,却不太懂得如何友好的回应人类的具体指令。

有监督微调

理解人类指令为了使模型更好地理解并响应人类指令,需要进行有监督微调。这一步骤通常涉及使用标注过的数据集,即包含明确指示和相应正确答案的样本对。

即,为了让模型学会“听懂话”,接下来的步骤是有监督微调(supervised fine-tuning,SFT模型,一般按天为训练单位)。这就好比请了个语言老师,专门教模型怎么理解人类的指令。 通过提供一些精心准备的问答对(由专业人员精心标注的Prompt-Response数据集),比如“今天的北京天气怎么样?”配上“晴天,适合出门哦!”,模型开始学习这些对应关系,渐渐明白在特定情境下该怎样回答问题。比如,给定一个问题“谁是《哈利·波特》的作者?”,模型需要学习给出“J.K.罗琳”的正确回答。这样的微调帮助模型学习特定领域的知识和指令遵循能力,从而提高其在特定任务中的表现。 这里的关键是“高质量”和“一致性”的Prompt-Response训练数据集,就像教小孩时选择合适的教材一样重要。

给模型提供少量的(当然大量的更好,一般数据标注人工比较昂贵)高质量的一致的Prompt-Response对数据集是对大模型训练中的一个关键步骤(探索和研究高质量Prompt和Response的撰写方法是非常有必要的)。 --后面文章会介绍如何撰写高质量的Prompt,如果只是大语言模型的使用者,只需要了解高质量Prompt即可,如果是大语言模型的训练者,需要了解高质量Prompt-Response对。

奖励建模

学习何为“好”回答

在预训练和微调之后,模型虽然能产生回复,但未必总是最优或最符合人类期待。奖励建模阶段通过人为或算法生成的评分系统,教会模型区分高质量和低质量的响应。标注人员会根据预定义的标准,对模型的输出进行评估和排序,这些反馈用于训练一个奖励模型。奖励模型随后能自动评价模型生成的回复,为后续的优化提供依据。

学会了基本应对还不够,我们还得让模型知道什么才是“好答案”。这就要靠奖励建模(reward model,RM模型,一般按天为训练单位)出场了。想象一群评委,他们会对模型给出的不同答案打分,选出最贴切的那个。 这个过程被用来训练一个“奖励模型(RM模型)”,它就像是模型的品鉴师,能够自动评价回复的好坏。这样一来,模型就知道以后该怎样做得更好。标注人员需要参考标准对每个抽样Prompt的多个回复进行排序,以此作为训练数据来训练奖励模型。

强化学习

持续自我进化与适应

最后,利用强化学习,模型通过与环境(在这里指用户或模拟的交互场景)的互动,学习如何最大化奖励信号,也就是如何生成更优质、更符合人类期望的回复。模型会尝试不同的回复策略,每次根据奖励模型的反馈调整其行为参数,逐步逼近理想的对话策略。这个迭代过程不断循环,直至模型的对话能力显著提升。

即,最后一个阶段,是让模型自我完善的强化学习(Reinforcement Learning,使用RM作为强化学习的优化目标,利用PPO算法微调SFT模型,按天为训练单位;准确来说是,基于人工反馈的强化学习,Reinforcement Learning from Human Feedback,RLHF)阶段。RM模型的高分就是reward奖励。有了奖励模型的指导,模型开始尝试不同的回答方式,并根据评分反馈不断调整策略。 就像游戏中的角色通过不断试错找到最优路径,模型也在一次次的尝试中优化自己,让每一次对话都更接近完美。

训练好的奖励模型可以自动给指令微调模型的回复进行打分,指令微调模型再根据奖励模型评分来更新参数并改进Response生成能力,如此循环往复,便可以不断提升大模型的Response生成效果。

经过这四大阶段的锤炼,大语言模型逐渐从一个简单的语言复述者,成长为能进行高质量对话的智慧伙伴。

常见的大模型有:GPT、文心一言、通义千问、智谱等

当文本到语音转换(TTS)

文本到语音转换(Text-to-Speech,TTS)是一种技术,可以将书写的文本转换成自然、流畅的语音。TTS系统通过分析输入的文本内容,合成对应的语音,从而使计算机可以“读出”文本内容。 TTS的核心功能是将文本转换为语音。具体过程包括以下几个步骤:

  1. 文本分析:对输入文本进行预处理,包括分词、词性标注、句子解析等,以便后续处理。
  2. 文本标注:根据语法和语义分析的结果,对文本进行标注,例如标记重音、停顿等信息。
  3. 语音合成:根据标注好的文本,利用声学模型和语音库合成语音信号。
  4. 后处理:对合成的语音进行平滑处理,以提高语音的自然度和流畅性。 传统TTS在实现上往往使用2种方法,分别是“拼接法”和“参数法”,而拼接法是从事先录制的大量语音中,选择所需的基本单位拼接而成而其优点就是最终得到而语音质量较高,但是其确定也很明显就是成本较高,而参数法则是根据统计模型产生时时刻刻的语音参数然后把这些参数转为波形,其优点就是所需的数据会对比拼接法大大减小,但是在质量方面则低于拼接法。 而近些年来基于神经网络架构的深度学习方法崛起,使得TTS技术新增了一种端到端的合成技术,端到端的合成技术相比于传统的语音合成技术而言降低了对语言学只是的要求,可以方便在不同语种上进行复制,批量实现几十种设置更多语种的语音合成系统。目前端到端的语音合成技术主要分为两类”统计参数合成”和“神经网络生码器”。其中,统计参数合成是一种基于统计模型的语音合成方法,通过建立文本特征到语音参数的映射关系来生成语音,而神经网络声码器则是一种基于深度神经网络的语音合成方法,通过训练神经网络模型将文本特征直接转换为语音波形。而端到端的合成技术优缺点也十分明显,其中优点就是可以直接合成语音,无需中间步骤,训练数据量小,训练速度快,合成效果自然,接近真人发音,而缺点则是模型训练难度较大,需要大量的计算资源,模型的泛华能力有限,并且合成的效果收到训练数据质量的影响,可能存在发音不准确等情况。

而当前的TTS技术则主要分为3个水平,分别是通用TTS,个性化TTS和情感TTS,通用TTS指的是在用户预期不苛刻的情况下,满足商业化需求,比如语音助手,智能音箱,机器人等情况,但是如果用户的预期很高的情况下还是比较难以满足,因为声音还是会存在机械感不能非常自然的模拟人声,而个性化的TTS则主要针对特定的场景中,生成特定的角色进行使用,而情感TTS,则要求声音中包含更多的情感语调,比如很火的ChatTTS就是一个情感TTS,而情感TTS则非常依赖于“情感意图识别”,“情感特征挖掘”,“情感数据”和“情感声学”技术等。 在许多实际应用中TTS技术发挥着重要作用,比如通过语音导航,用户可以在驾驶或步行时获取实时的导航指示,而不需要低头查看屏幕,提升了出行的便捷性和安全性。在GPS导航设备或手机导航应用中,TTS可以为用户提供转弯、道路变化等语音提示,确保用户能够专注于驾驶或步行。在公交车、地铁等公共交通工具上,TTS可以用来广播站点信息、服务公告等内容,方便乘客了解实时信息。 而有声读物是利用TTS技术将书籍、文章等文本内容转换为语音形式的数字产品。通过有声读物,用户可以在不便阅读的情况下(如开车、运动时)享受书籍内容,提升阅读体验。在电子书应用中,TTS可以将文本内容转换为语音,提供听书功能,满足用户的多样化需求。在教育领域,TTS可以用来制作有声教材、讲解资料等,帮助学生通过听觉进行学习,特别是对有视觉障碍的学生尤为重要。

常见的TTS库有:CosyVoice、googleTTS、parallelTTS等

语音三剑客结论

AI的每一句话都依赖于三项核心技术:自然语言处理(NLP)、自动语音识别(ASR)和文本到语音转换(TTS)。这些技术共同协作,使机器能够理解、生成和转换人类语言,实现更自然和高效的人机交互。NLP通过理解和生成自然语言,使机器能够处理和理解文本输入,并生成合理的文本输出。ASR将语音转换为文本,使机器能够听懂人类的语言,为语音输入提供基础。TTS将文本转换为语音,使机器能够以自然的语音形式输出信息,为语音输出提供基础。 然而,尽管大模型在NLP领域取得了突破性进展,将ASR和TTS能力整合进去仍然面临挑战。首先,ASR和TTS是两个不同的技术领域,它们在处理语音和文本方面有着不同的算法和优化目标,需要专门设计以提高准确性和自然度。其次,ASR和TTS技术在处理语音信号和文本数据时,需要考虑噪声、口音、语速等多种因素,这些都会影响性能。此外,ASR和TTS的实现需要大量语音和文本数据进行训练,这些数据需要清洗、标注和预处理,数据质量、隐私和标注成本等问题也需解决。

进化任我行:端到端语音大模型

然而,随着深度学习特别是端到端模型的发展,我们正站在一个新的起点上。端到端语音大模型不再局限于传统的分阶段处理方式,而是尝试直接从原始语音信号中提取特征并生成最终的语音输出,大大简化了流程,提高了系统的整体效率和性能。更重要的是,这种一体化的设计理念使得模型可以更深入地理解语音背后的情感、语调等非语言因素,从而创造出更为生动真实的语音体验。

因此,当我们展望未来时,可以看到一个更加紧密集成、智能化程度更高的语音交互生态系统正在形成。在这个系统中,不再是简单的“三剑合璧”,而是向着完全融合的方向迈进——即一个能够无缝衔接语音输入、理解和输出全过程的大规模预训练模型。这样的模型不仅能更好地适应多样化的应用场景,还将开启个性化、情感化语音服务的新纪元。

下回分晓,期待第二期端到端语音对话大模型的朋友们,关注起来,点个赞,收藏不迷路。

结语

回顾过去,ASR、NLP和TTS三大技术携手走过了六十年的风雨历程;展望未来,端到端语音大模型正引领我们进入一个人机对话新时代。在这个过程中,每一步都是对未知领域的探索,每一次突破都凝聚着无数科研人员的心血。那么,在您看来,未来的语音技术将会给我们带来哪些意想不到的变化呢?欢迎在评论区留下您的见解!


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI研思录 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 第一期-语音三剑客:ASR、LLM与TTS的组合,
    • 自动语音识别(ASR)
    • 从语音识别结果到回答文本的生成(LLM)
      • 预训练
      • 有监督微调
      • 奖励建模
      • 强化学习
    • 当文本到语音转换(TTS)
    • 语音三剑客结论
  • 进化任我行:端到端语音大模型
    • 结语
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档