首页
学习
活动
专区
工具
TVP
发布

CSDN博客

本人的CSDN博客:https://yeyupiaoling.blog.csdn.net/
专栏成员
158
文章
262089
阅读量
35
订阅数
鸿蒙应用开发-录音并使用WebSocket实现实时语音识别
录音并实时获取RAW的音频格式数据,利用WebSocket上传数据到服务器,并实时获取语音识别结果,参考文档使用AudioCapturer开发音频录制功能(ArkTS),更详细接口信息请查看接口文档:AudioCapturer8+和@ohos.net.webSocket (WebSocket连接)。
夜雨飘零
2024-05-26
1330
鸿蒙应用开发-录音保存并播放音频
录音并保存为m4a格式的音频,然后播放该音频,参考文档使用AVRecorder开发音频录制功能(ArkTS),更详细接口信息请查看接口文档:@ohos.multimedia.media (媒体服务)。
夜雨飘零
2024-05-26
991
鸿蒙应用开发-自定义可删除列表弹窗
自定义列表弹窗,可以对弹窗的列表点击删除,参考文档创建列表,自定义弹窗文档自定义弹窗(CustomDialog)。
夜雨飘零
2024-05-26
880
鸿蒙应用开发-仿微信聊天对话对话信息列表
src/main/ets/model/MsgDataSource.ets编写的是对列表的操作,如添加数据、获取列表大小,通过操作这个对象,控制列表显示。
夜雨飘零
2024-05-26
430
鸿蒙应用开发-发送POST请求并获取结果
夜雨飘零
2024-05-26
2380
鸿蒙应用开发-播放本地音频文件
播音音频,提高音频文件路径,播放音频。参考文档使用AVPlayer开发音频播放功能。
夜雨飘零
2024-05-26
1150
鸿蒙应用开发-请求语音合成服务获取音频文件
请求语音合成服务,通过上传语音合成文本,返回音频数据,并保存到本地。这里要说明一下,由于HttpResponse接口给问题,服务的响应类型必须是application/octet-stream,才能正确获取音频数据并保存,接口文档:HttpResponse。
夜雨飘零
2024-05-26
580
实时指令唤醒
本文将介绍一个实时指令唤醒的程序,可以添加任意的指令,实时录音一旦检测到指令语音,激活程序。同时还支持指令微调、提高指令的准确率。
夜雨飘零
2023-12-18
2020
语音指令控制坦克大战
本文将介绍一个可以通过语音指令来控制坦克大战游戏的程序,用户只需要添加几个疾病区然后控制坦克进行向上、向下、向左、向右、开火、停止等操作。同时还支持指令微调、提高指令的准确率。
夜雨飘零
2023-12-18
1660
识别准确率竟如此高,实时语音识别服务
本文将介绍一个准确率非常高的语音识别框架,那就是FunASR,这个框架的模型训练数据超过几万个小时,经过测试,准确率非常高。本文将介绍如何启动WebSocket服务和Android调用这个服务来实时识别,一边说话一边出结果。
夜雨飘零
2023-10-23
8690
轻松快速搭建一个本地的语音合成服务
本文将介绍一个可以快速搭建本地语音合成的服务,模型和代码已全部提供,不需要联网运行。项目使用的是VITS模型结构,能够很轻松地启动服务。
夜雨飘零
2023-10-23
4550
FunASR语音识别GUI界面应用
本文将介绍一个基于FunASR开发的语音识别界面应用,这个应用可以选择本地音频,也可以录音识别。支持多种音频格式和视频格式,可以对识别的结果加上时间戳做成字幕。
夜雨飘零
2023-10-09
1K0
基于PaddlePaddle实现的声纹识别系统
本项目使用了EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型,不排除以后会支持更多模型,同时本项目也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对应项目中的AAMLoss,对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接,除此之外,还支持AMLoss、ARMLoss、CELoss等多种损失函数。
夜雨飘零
2023-08-21
3790
基于Pytorch实现的声纹识别系统
本项目使用了EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型,不排除以后会支持更多模型,同时本项目也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对应项目中的AAMLoss,对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接,除此之外,还支持AMLoss、ARMLoss、CELoss等多种损失函数。
夜雨飘零
2023-08-21
6380
微调Whisper语音识别模型和加速推理
OpenAI在开源了号称其英文语音辨识能力已达到人类水准的Whisper项目,且它亦支持其它98种语言的自动语音辨识。Whisper所提供的自动语音识与翻译任务,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。本项目主要的目的是为了对Whisper模型使用Lora进行微调,目前开源了好几个模型,具体可以在openai查看,下面列出了常用的几个模型。另外项目最后还对语音识别加速推理,使用了CTranslate2加速推理,提示一下,加速推理支持直接使用Whisper原模型转换,并不一定需要微调。
夜雨飘零
2023-06-04
3.4K0
微调Whisper模型和加速推理
OpenAI在开源了号称其英文语音辨识能力已达到人类水准的Whisper项目,且它亦支持其它98种语言的自动语音辨识。Whisper所提供的自动语音识与翻译任务,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。本项目主要的目的是为了对Whisper模型使用Lora进行微调,目前开源了好几个模型,具体可以在openai查看,下面列出了常用的几个模型。另外项目最后还对语音识别加速推理,使用了CTranslate2加速推理,提示一下,加速推理支持直接使用Whisper原模型转换,并不一定需要微调。
夜雨飘零
2023-04-30
2.1K0
基于PaddlePaddle实现的目标检测模型PP-YOLOE
本项目是基于PaddleDetection实现的PP-YOLOE,PP-YOLOE是单阶段Anchor-free模型,其精度(COCO数据集mAP)和推理速度均优于YOLOv5模型,PP-YOLOE在COCO test-dev2017数据集上精度达到49.0%,在单卡V100上FP32推理速度为123.4FPS, V100上开启TensorRT下FP16推理速度为208.3FPS。其中还包含了X/L/M/S四种模型类型,适合部署在多种多样的硬件上,在手机上部署,推理速度也是极快的。
夜雨飘零
2022-11-30
6590
使用VAD将长语音分割的多段短语音
今天来介绍一个VAD的工具,VAD(Voice Activity Detection)语音活动检测,是可以把一段长语音以静音位置把语音分割成多段短语音,常见的就用WebRTC VAD工具,目前很多项目都是用这个工具,但是今天作者介绍的是另一个工具,这个工具是PPASR的一个小功能,这个功能是基于深度学习实现的。
夜雨飘零
2022-11-28
1.5K0
基于PaddlePaddle训练中文标点符号模型
本想是基于PaddleSpeech开发的中文标点符号模型,默认使用的预训练模型为ernie-3.0-medium-zh。该模型可以用于语音识别结果添加标点符号,使用案例PPASR。
夜雨飘零
2022-09-30
1.4K0
使用PaddlePaddle轻松实现语音合成
使用PaddlePaddle轻松实现语音合成,提供了简单的示例代码,GUI界面操作,还有Flask的Web接口,可以给Android调用。
夜雨飘零
2022-09-07
1.2K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档