8月份,NVIDIA开源了一个深度学习推断库——Jetson Voice ,专为Jetson Nano、TX1/TX2、Xavier NX和AGX Xavier等嵌入式设备而设计,为AI技术带来了更多可能性。现在,让我们深入了解这个Jetson Voice 吧。
支持的平台和语言
Jetson Voice 支持Python和JetPack 4.4.1或更新版本,为用户提供了更广泛的应用范围。这意味着它可以在多种Jetson设备上运行,从小型的Jetson Nano到高性能的AGX Xavier,都可以受益于这一强大的工具。
功能强大的AI任务
Jetson Voice 为用户提供了多项关键功能,包括:
1. 自动语音识别(ASR): 支持75种不同语言,包括流式语音识别、命令/关键词识别和语音活动检测。这意味着它可以用于语音识别应用,从智能助手到语音命令控制。
2. 自然语言处理(NLP): 这个库支持12种不同的自然语言处理任务,包括文本分类、标记分类、问题回答等。其中,采用了DistilBERT 7变换器架构,以提高性能和减少内存占用,让NLP任务更加高效。
3. 文本到语音(TTS): 支持80种语言的文本到语音合成,为用户提供高质量的语音输出,可以用于语音助手、有声书和更多应用。
性能优化
Jetson Voice 的DNN模型经过NeMo 13训练,并使用TensorRT 6进行部署,以获得最佳性能。而所有计算任务都在设备上的GPU上执行,保证了高效的计算速度。
示例音频
对于对TTS音频输出感兴趣的人,Jetson Voice 提供了TTS音频示例,让您可以亲自体验这一强大功能的效果。
Jetson Voice的发布代表了Jetson平台用户的一次技术飞跃。无论您是开发智能助手、自然语言处理应用还是需要文本到语音功能,Jetson Voice都将为您提供更多可能性和工具,更多关于信息,可以访问代码库:https://github.com/dusty-nv/jetson-voice
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有