首页
学习
活动
专区
圈层
工具
发布
首页标签语音识别

#语音识别

专业智能高效的语音处理服务

Google推出MedGemma1.5驱动的下一代医学影像解析与MedASR医疗语音识别系统

DrugAI

人工智能在医疗领域的应用正以前所未有的速度加速推进,医疗行业采用 AI 的速度已达到整体经济体系的两倍。顺应这一趋势,Google 去年通过 Health AI...

3300

对话式AI:端到端语音识别与算法公平性研究进展

用户11764306

2022年,语音领域规模最大、最全面的国际学术会议Interspeech在韩国仁川举行。某中心作为白金赞助商出席。某中心语音AI组织的几位资深科学家重点介绍了该...

6510

无需重新训练即可为语音识别器添加新词

用户11764306

近年来,自动语音识别(ASR)已转向全神经网络模型。连接时序分类(CTC)损失函数因其预测不依赖于先前上下文,从而产生推理延迟低的简单模型,成为端到端ASR的一...

8310

智谱语音识别大模型开源,支持中国方言,消费级显卡本地部署

Ai学习的老章

语音识别模型我之前都是用Belle-whisper-large-v3-zh,小巧、快速,但是方言支持和准确性差一点意思。最近智谱Z.AI 开源了 GLM-ASR...

12710

利用自然语言理解标签优化语音识别重评分模型

用户11764306

第二遍语言模型通常用于对自动语音识别生成的假设进行重评分。研究表明,通过在训练中融入自然语言理解的目标任务,可以提升这类重评分模型的性能。

6110

智能语音唤醒词技术的新研究突破

用户11764306

每一次与智能语音助手的交互都始于唤醒词。通常,智能设备只有在确认听到唤醒词后,才会将后续的语音请求发送到云端进行深度处理。在首款智能音箱发布六年后,其背后的科学...

9710

Alexa新功能实现自然多轮对话交互

用户11764306

“对话模式”代表了语音AI领域的一个重要里程碑。该功能将让Echo Show 8和Echo Show 10的用户能够更自然地与Alexa互动,而无需重复说出唤醒...

10510

《人工智能导论》第 10 章 自然语言处理及其应用

啊阿狸不会拉杆

        基于 HMM 的语音识别方法是传统语音识别的主流方法,其核心思想是将语音识别问题转化为 HMM 的解码问题:

11310

构建AI智能体:基于OpenAI Whisper-large-v3模型的本地化部署实现语音识别提取摘要

未闻花名

作为一名大模型从业和探索者,最近接到了一个颇具挑战性的任务:为客户构建一个高精度的语音转文字服务。在经过多方技术选型后,我们最终选择了OpenAI的Whispe...

28110

超级应用(Super Apps)整合多模态AI能力

贺公子之数据科学与艺术

以下代码使用Python结合NLP和CV技术,模拟一个支持语音、文本和图像输入的多模态交互系统。示例整合了语音识别、自然语言处理、图像识别等功能模块。

8710

当银行被迫为“被骗”买单:韩国拟推语音钓鱼强制赔偿制,引发金融安全与道德风险大辩论

草竹道人

中国互联网络信息中心 | 工程师 (已认证)

在首尔江南区一家商业银行的客户服务中心,李女士正焦急地等待工作人员处理她的投诉。三天前,她接到一通自称是“国家金融监督院”的电话,对方准确报出她的身份证号和近期...

14210

AI语音克隆掀起“声”命危机:全球Vishing攻击激增,传统身份核验体系告急

草竹道人

中国互联网络信息中心 | 工程师 (已认证)

在伦敦金融城一家跨国银行的呼叫中心,客服代表Sarah接到一通紧急来电。电话那头的声音沉稳、略带沙哑——正是她熟悉的首席财务官Mark Thompson的嗓音。...

13010

前端实战:手把手教你接入腾讯云 ASR 实时语音识别(避坑指南)

Front_Yue

浙江大学湖州研究院 | 前端开发工程师 (已认证)

在数字人交互、智能客服或语音助手的 Web 开发中,实时语音识别(ASR) 是最基础也是最核心的入口。市面上方案众多,今天我们基于一个真实的测试文件 test-...

20100

XTrans:基于腾讯云ASR与DeepSeek的语音转录与校验技术方案

AI推荐小柚子

XTrans 是一个面向高准确率语音转文字需求的系统,采用腾讯云语音识别(ASR)作为基础转写引擎,结合DeepSeek大语言模型进行转录后文本校验与纠错,旨在...

10510

仿冒快递短信竟能盗走百万账户?Google重拳起诉“Smishing三合会”,中国专家警示国内短信钓鱼已进入产业化阶段

草竹道人

中国互联网络信息中心 | 工程师 (已认证)

这些看似来自政府机构或科技巨头的短信,正成为美国消费者最危险的数字陷阱。据CNBC 2025年11月12日报道,Google已正式向美国联邦法院提起诉讼,剑指一...

15810

一通电话撬开哈佛数据库:Vishing攻击如何绕过防火墙,直击“人肉漏洞”?

草竹道人

中国互联网络信息中心 | 工程师 (已认证)

世界顶尖学府哈佛大学发布了一则低调却令人警醒的公告:其内部部分数据库遭遇未授权访问,泄露信息涵盖校友、捐赠者及部分师生的个人资料。令人意外的是,这次入侵并非源于...

7810

相关产品

  • 语音识别

    专业智能高效的语音处理服务

活跃用户

  • gavin1024

    2.2K 文章76.4K 回答0 关注
领券