CSDN博客

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

录音并实时获取RAW的音频格式数据，利用WebSocket上传数据到服务器，并实时获取语音识别结果，参考文档使用AudioCapturer开发音频录制功能(ArkTS)，更详细接口信息请查看接口文档：AudioCapturer8+和@ohos.net.webSocket (WebSocket连接)。

鸿蒙应用开发-录音并使用WebSocket实现实时语音识别

录音并保存为m4a格式的音频，然后播放该音频，参考文档使用AVRecorder开发音频录制功能(ArkTS)，更详细接口信息请查看接口文档：@ohos.multimedia.media (媒体服务)。

鸿蒙应用开发-录音保存并播放音频

自定义列表弹窗，可以对弹窗的列表点击删除，参考文档创建列表，自定义弹窗文档自定义弹窗（CustomDialog）。

鸿蒙应用开发-自定义可删除列表弹窗

src/main/ets/model/MsgDataSource.ets编写的是对列表的操作，如添加数据、获取列表大小，通过操作这个对象，控制列表显示。

鸿蒙应用开发-仿微信聊天对话对话信息列表

鸿蒙应用开发-发送POST请求并获取结果

播音音频，提高音频文件路径，播放音频。参考文档使用AVPlayer开发音频播放功能。

鸿蒙应用开发-播放本地音频文件

请求语音合成服务，通过上传语音合成文本，返回音频数据，并保存到本地。这里要说明一下，由于HttpResponse接口给问题，服务的响应类型必须是application/octet-stream，才能正确获取音频数据并保存，接口文档：HttpResponse。

鸿蒙应用开发-请求语音合成服务获取音频文件

本文将介绍一个实时指令唤醒的程序，可以添加任意的指令，实时录音一旦检测到指令语音，激活程序。同时还支持指令微调、提高指令的准确率。

实时指令唤醒

本文将介绍一个可以通过语音指令来控制坦克大战游戏的程序，用户只需要添加几个疾病区然后控制坦克进行向上、向下、向左、向右、开火、停止等操作。同时还支持指令微调、提高指令的准确率。

语音指令控制坦克大战

本文将介绍一个准确率非常高的语音识别框架，那就是FunASR，这个框架的模型训练数据超过几万个小时，经过测试，准确率非常高。本文将介绍如何启动WebSocket服务和Android调用这个服务来实时识别，一边说话一边出结果。

识别准确率竟如此高，实时语音识别服务

本文将介绍一个可以快速搭建本地语音合成的服务，模型和代码已全部提供，不需要联网运行。项目使用的是VITS模型结构，能够很轻松地启动服务。

轻松快速搭建一个本地的语音合成服务

本文将介绍一个基于FunASR开发的语音识别界面应用，这个应用可以选择本地音频，也可以录音识别。支持多种音频格式和视频格式，可以对识别的结果加上时间戳做成字幕。

FunASR语音识别GUI界面应用

本项目使用了EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型，不排除以后会支持更多模型，同时本项目也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法，使用了ArcFace Loss，ArcFace loss：Additive Angular Margin Loss（加性角度间隔损失函数），对应项目中的AAMLoss，对特征向量和权重归一化，对θ加上角度间隔m，角度间隔比余弦间隔在对角度的影响更加直接，除此之外，还支持AMLoss、ARMLoss、CELoss等多种损失函数。

基于PaddlePaddle实现的声纹识别系统

基于Pytorch实现的声纹识别系统

OpenAI在开源了号称其英文语音辨识能力已达到人类水准的Whisper项目，且它亦支持其它98种语言的自动语音辨识。Whisper所提供的自动语音识与翻译任务，它们能将各种语言的语音变成文本，也能将这些文本翻译成英文。本项目主要的目的是为了对Whisper模型使用Lora进行微调，目前开源了好几个模型，具体可以在openai查看，下面列出了常用的几个模型。另外项目最后还对语音识别加速推理，使用了CTranslate2加速推理，提示一下，加速推理支持直接使用Whisper原模型转换，并不一定需要微调。

微调Whisper语音识别模型和加速推理

微调Whisper模型和加速推理

本项目是基于PaddleDetection实现的PP-YOLOE，PP-YOLOE是单阶段Anchor-free模型，其精度(COCO数据集mAP)和推理速度均优于YOLOv5模型，PP-YOLOE在COCO test-dev2017数据集上精度达到49.0%，在单卡V100上FP32推理速度为123.4FPS, V100上开启TensorRT下FP16推理速度为208.3FPS。其中还包含了X/L/M/S四种模型类型，适合部署在多种多样的硬件上，在手机上部署，推理速度也是极快的。

基于PaddlePaddle实现的目标检测模型PP-YOLOE

今天来介绍一个VAD的工具，VAD（Voice Activity Detection）语音活动检测，是可以把一段长语音以静音位置把语音分割成多段短语音，常见的就用WebRTC VAD工具，目前很多项目都是用这个工具，但是今天作者介绍的是另一个工具，这个工具是PPASR的一个小功能，这个功能是基于深度学习实现的。

使用VAD将长语音分割的多段短语音

本想是基于PaddleSpeech开发的中文标点符号模型，默认使用的预训练模型为ernie-3.0-medium-zh。该模型可以用于语音识别结果添加标点符号，使用案例PPASR。

基于PaddlePaddle训练中文标点符号模型

使用PaddlePaddle轻松实现语音合成，提供了简单的示例代码，GUI界面操作，还有Flask的Web接口，可以给Android调用。

使用PaddlePaddle轻松实现语音合成

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了CSDN博客专栏，为你提供了CSDN博客的相关文章，致力于帮助开发者快速成长与发展。

CSDN博客

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐