腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
CSDN博客
本人的CSDN博客:https://yeyupiaoling.blog.csdn.net/
专栏成员
举报
158
文章
277152
阅读量
36
订阅数
订阅专栏
申请加入专栏
全部文章(158)
深度学习(75)
人工智能(46)
神经网络(40)
https(30)
python(25)
android(23)
网络安全(21)
语音识别(15)
编程算法(15)
tensorflow(13)
java(11)
图像识别(11)
人脸识别(9)
数据(9)
机器学习(7)
xml(7)
打包(7)
开发(7)
模型(7)
声纹识别(6)
pytorch(5)
权限(5)
c++(4)
云数据库 SQL Server(4)
ide(4)
github(4)
api(4)
linux(4)
腾讯云测试服务(4)
http(4)
音频(4)
语音(4)
bash(3)
node.js(3)
android studio(3)
数据库(3)
sql(3)
ubuntu(3)
文字识别(3)
语音合成(3)
网站(3)
开源(3)
卷积神经网络(3)
windows(3)
程序(3)
服务(3)
日志(3)
php(2)
c#(2)
json(2)
phpmyadmin(2)
flask(2)
git(2)
tomcat(2)
centos(2)
容器镜像服务(2)
访问管理(2)
TDSQL MySQL 版(2)
容器(2)
存储(2)
opencv(2)
lan(2)
函数(2)
系统(2)
源码(2)
状态机(2)
负载均衡(1)
servlet(1)
jsp(1)
jquery ui(1)
css(1)
html(1)
mvc(1)
matlab(1)
负载均衡缓存(1)
nginx(1)
bash 指令(1)
spring(1)
黑石物理服务器(1)
文件存储(1)
视频处理(1)
serverless(1)
游戏(1)
缓存(1)
爬虫(1)
html5(1)
强化学习(1)
正则表达式(1)
gui(1)
numpy(1)
监督学习(1)
线性回归(1)
keras(1)
tcp/ip(1)
迁移学习(1)
powershell(1)
微信(1)
数据分析(1)
腾讯云开发者社区(1)
sdk(1)
验证码(1)
avplayer(1)
detection(1)
function(1)
listener(1)
overflow(1)
post(1)
random(1)
system(1)
time(1)
transform(1)
voice(1)
void(1)
web(1)
websocket(1)
width(1)
并发(1)
服务器(1)
工具(1)
框架(1)
视频(1)
调试(1)
异步(1)
搜索文章
搜索
搜索
关闭
鸿蒙应用开发-录音并使用WebSocket实现实时语音识别
开发
权限
数据
语音识别
websocket
录音并实时获取RAW的音频格式数据,利用WebSocket上传数据到服务器,并实时获取语音识别结果,参考文档使用AudioCapturer开发音频录制功能(ArkTS),更详细接口信息请查看接口文档:AudioCapturer8+和@ohos.net.webSocket (WebSocket连接)。
夜雨飘零
2024-05-26
353
0
鸿蒙应用开发-录音保存并播放音频
函数
开发
权限
音频
状态机
录音并保存为m4a格式的音频,然后播放该音频,参考文档使用AVRecorder开发音频录制功能(ArkTS),更详细接口信息请查看接口文档:@ohos.multimedia.media (媒体服务)。
夜雨飘零
2024-05-26
284
1
鸿蒙应用开发-自定义可删除列表弹窗
数据
listener
void
开发
权限
自定义列表弹窗,可以对弹窗的列表点击删除,参考文档创建列表,自定义弹窗文档自定义弹窗(CustomDialog)。
夜雨飘零
2024-05-26
129
0
鸿蒙应用开发-仿微信聊天对话对话信息列表
微信
width
开发
权限
数据
src/main/ets/model/MsgDataSource.ets编写的是对列表的操作,如添加数据、获取列表大小,通过操作这个对象,控制列表显示。
夜雨飘零
2024-05-26
81
0
鸿蒙应用开发-发送POST请求并获取结果
开发
模型
数据
异步
post
夜雨飘零
2024-05-26
705
0
鸿蒙应用开发-播放本地音频文件
开发
音频
状态机
avplayer
函数
播音音频,提高音频文件路径,播放音频。参考文档使用AVPlayer开发音频播放功能。
夜雨飘零
2024-05-26
423
0
鸿蒙应用开发-请求语音合成服务获取音频文件
数据
语音合成
服务
开发
权限
请求语音合成服务,通过上传语音合成文本,返回音频数据,并保存到本地。这里要说明一下,由于HttpResponse接口给问题,服务的响应类型必须是application/octet-stream,才能正确获取音频数据并保存,接口文档:HttpResponse。
夜雨飘零
2024-05-26
104
0
实时指令唤醒
time
程序
模型
日志
数据
本文将介绍一个实时指令唤醒的程序,可以添加任意的指令,实时录音一旦检测到指令语音,激活程序。同时还支持指令微调、提高指令的准确率。
夜雨飘零
2023-12-18
251
0
语音指令控制坦克大战
游戏
程序
模型
日志
数据
本文将介绍一个可以通过语音指令来控制坦克大战游戏的程序,用户只需要添加几个疾病区然后控制坦克进行向上、向下、向左、向右、开火、停止等操作。同时还支持指令微调、提高指令的准确率。
夜雨飘零
2023-12-18
199
0
识别准确率竟如此高,实时语音识别服务
语音识别
并发
服务
框架
源码
本文将介绍一个准确率非常高的语音识别框架,那就是FunASR,这个框架的模型训练数据超过几万个小时,经过测试,准确率非常高。本文将介绍如何启动WebSocket服务和Android调用这个服务来实时识别,一边说话一边出结果。
夜雨飘零
2023-10-23
1.2K
0
轻松快速搭建一个本地的语音合成服务
语音合成
服务
服务器
模型
源码
本文将介绍一个可以快速搭建本地语音合成的服务,模型和代码已全部提供,不需要联网运行。项目使用的是VITS模型结构,能够很轻松地启动服务。
夜雨飘零
2023-10-23
516
0
FunASR语音识别GUI界面应用
gui
语音识别
模型
视频
音频
本文将介绍一个基于FunASR开发的语音识别界面应用,这个应用可以选择本地音频,也可以录音识别。支持多种音频格式和视频格式,可以对识别的结果加上时间戳做成字幕。
夜雨飘零
2023-10-09
1.4K
0
基于PaddlePaddle实现的声纹识别系统
声纹识别
模型
系统
音频
语音
本项目使用了EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型,不排除以后会支持更多模型,同时本项目也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对应项目中的AAMLoss,对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接,除此之外,还支持AMLoss、ARMLoss、CELoss等多种损失函数。
夜雨飘零
2023-08-21
439
0
基于Pytorch实现的声纹识别系统
声纹识别
pytorch
数据
系统
语音
本项目使用了EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型,不排除以后会支持更多模型,同时本项目也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对应项目中的AAMLoss,对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接,除此之外,还支持AMLoss、ARMLoss、CELoss等多种损失函数。
夜雨飘零
2023-08-21
859
0
微调Whisper语音识别模型和加速推理
语音识别
pytorch
transform
OpenAI在开源了号称其英文语音辨识能力已达到人类水准的Whisper项目,且它亦支持其它98种语言的自动语音辨识。Whisper所提供的自动语音识与翻译任务,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。本项目主要的目的是为了对Whisper模型使用Lora进行微调,目前开源了好几个模型,具体可以在openai查看,下面列出了常用的几个模型。另外项目最后还对语音识别加速推理,使用了CTranslate2加速推理,提示一下,加速推理支持直接使用Whisper原模型转换,并不一定需要微调。
夜雨飘零
2023-06-04
3.8K
0
微调Whisper模型和加速推理
语音识别
程序
模型
数据
语音
OpenAI在开源了号称其英文语音辨识能力已达到人类水准的Whisper项目,且它亦支持其它98种语言的自动语音辨识。Whisper所提供的自动语音识与翻译任务,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。本项目主要的目的是为了对Whisper模型使用Lora进行微调,目前开源了好几个模型,具体可以在openai查看,下面列出了常用的几个模型。另外项目最后还对语音识别加速推理,使用了CTranslate2加速推理,提示一下,加速推理支持直接使用Whisper原模型转换,并不一定需要微调。
夜雨飘零
2023-04-30
2.4K
0
基于PaddlePaddle实现的目标检测模型PP-YOLOE
android
python
json
本项目是基于PaddleDetection实现的PP-YOLOE,PP-YOLOE是单阶段Anchor-free模型,其精度(COCO数据集mAP)和推理速度均优于YOLOv5模型,PP-YOLOE在COCO test-dev2017数据集上精度达到49.0%,在单卡V100上FP32推理速度为123.4FPS, V100上开启TensorRT下FP16推理速度为208.3FPS。其中还包含了X/L/M/S四种模型类型,适合部署在多种多样的硬件上,在手机上部署,推理速度也是极快的。
夜雨飘零
2022-11-30
746
0
使用VAD将长语音分割的多段短语音
detection
voice
web
工具
语音
今天来介绍一个VAD的工具,VAD(Voice Activity Detection)语音活动检测,是可以把一段长语音以静音位置把语音分割成多段短语音,常见的就用WebRTC VAD工具,目前很多项目都是用这个工具,但是今天作者介绍的是另一个工具,这个工具是PPASR的一个小功能,这个功能是基于深度学习实现的。
夜雨飘零
2022-11-28
1.7K
0
基于PaddlePaddle训练中文标点符号模型
深度学习
神经网络
人工智能
语音识别
本想是基于PaddleSpeech开发的中文标点符号模型,默认使用的预训练模型为ernie-3.0-medium-zh。该模型可以用于语音识别结果添加标点符号,使用案例PPASR。
夜雨飘零
2022-09-30
1.5K
0
使用PaddlePaddle轻松实现语音合成
语音合成
android
flask
神经网络
深度学习
使用PaddlePaddle轻松实现语音合成,提供了简单的示例代码,GUI界面操作,还有Flask的Web接口,可以给Android调用。
夜雨飘零
2022-09-07
1.3K
0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档