首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
首页标签语音识别

#语音识别

专业智能高效的语音处理服务

电销外呼系统核心功能

更新中

在数字化转型的浪潮中,电销外呼系统正经历着从传统呼叫工具向智能业务中枢的蜕变。作为企业获客转化的核心引擎,新一代外呼系统通过技术创新正在重塑销售效率的天花板。本...

11310

为什么应该关注AI外呼技术?

更新中

语音识别(ASR)与合成(TTS)优化:通过预训练模型(如Whisper、Tacotron)提升语音交互实时性。

12710

语音识别技术的进步与挑战

Echo_Wish

语音识别技术从诞生至今,经历了巨大的进步。最初的语音识别系统只能识别有限的词汇,且准确率较低。随着计算能力的提升和机器学习算法的发展,语音识别技术取得了长足的进...

11610

万字长文 | 让大模型“开口”说话:从ASR到端到端语音大模型的进化之旅

AI研思录

实际上,当前的Siri和小爱同学的每一句话背后都依赖于三项核心技术(未来可能就是端到端语音了):自动语音识别(ASR)、自然语言处理(NLP)、文本到语音转换(...

31920

浅析AI呼叫的业务逻辑

更新中

在人工智能(AI)技术日新月异的今天,AI外呼系统作为客户服务与营销的重要工具,正逐步改变着企业的运营模式和客户体验。本文将探讨AI外呼的技术路径,从技术架构、...

9700

几款好用的AI外呼产品介绍

更新中

智能纠错与优化:云蝠智能的呼叫系统具备智能纠错和翻译功能,能够有效提升对话质量。其语音识别技术通过降噪模型和流媒体识别技术,确保在复杂环境下的高准确率。

13720

《Attention LSTM:解锁关键信息捕捉的强大引擎》

程序员阿伟

在当今人工智能飞速发展的时代,Attention LSTM作为一种强大的序列建模工具,正日益受到广泛关注。它巧妙地将注意力机制融入到长短期记忆网络(LSTM)中...

11910

小红书语音识别新突破!开源FireRedASR,中文效果新SOTA

机器之心

语音识别(ASR,Automatic Speech Recognition)是一种将语音转化为文字的技术,被广泛应用于智能语音交互和多媒体内容理解领域,例如语音...

19110

三文带你轻松上手鸿蒙的AI语音03-文本合成声音

万少

传智播客 | 课程研究员 (已认证)

HarmonyOS NEXT 提供的AI 文本合并语音功能,可以将一段不超过10000字符的文本合成为语音并进行播报。

7810

三文带你轻松上手鸿蒙的AI语音02-声音文件转文本

万少

传智播客 | 课程研究员 (已认证)

AVRecorder录制出来的声音封装格式只能是aac,这个文件格式我们的AI语音引擎不支持,AI语音引擎只支持pcm格式,而 AudioCapturer录制的...

8100

三文带你轻松上手鸿蒙的AI语音01-实时语音识别

万少

传智播客 | 课程研究员 (已认证)

HarmonyOSNext中集成了强大的AI功能。Core Speech Kit(基础语音服务)是它提供的众多AI功能中的一种。

7310

ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA

机器之心

近日,小米集团新一代 Kaldi 团队关于语音识别算法的论文《CR-CTC: Consistency regularization on CTC for imp...

11810

VideoCaptioner:AI智能字幕生成,低成本高效解决方案

程序那些事儿

VideoCaptioner 是一款基于大语言模型(LLM)的智能字幕助手。它支持语音识别、字幕断句、优化、翻译全流程处理,无需高性能 GPU 即可实现高质量的...

32010

语音处理 开源项目 EchoSharp

张善友

EchoSharp通过集成多种先进的AI模型和组件,提供了一个灵活且高效的近实时音频处理解决方案,适用于需要高质量语音识别和音频分析的应用场景。

4400

sherpa-onnx:跨平台、多语言的语音处理工具包

张善友

Sherpa-onnx 是一个基于 ONNX 运行时的开源语音处理库,支持多种语音相关任务,包括语音识别、语音合成、说话人识别、语言识别等。它不仅支持多种编程语...

24010

小米语音首席科学家 Daniel Povey:语音识别卷完了,下一个机会在哪里?| 智者访谈

机器之心

多模态能力的融合正在改写 AI 发展路径。语音、视觉与自然语言处理的边界日益模糊,以 Transformer 为代表的通用解决方案,正在重塑传统技术领域。

8300

DeepSpeech

阿超

最近在研究语音识别(ASR)相关的开源项目时,发现了 DeepSpeech,这是 Mozilla 开发的一个开源语音识别引擎,基于深度学习,能够将语音转换为文本...

13500
领券