首页
学习
活动
专区
圈层
工具
发布

#语音

【AI实现语言对比技术的核心方法】

贺公子之数据科学与艺术

语音特征提取与建模 通过MFCC(梅尔频率倒谱系数)或PLP(感知线性预测)算法提取语音的声学特征,建立目标发音的基准模型。深度学习模型如CNN或LSTM可用...

100

大模型下场做输入法:真正被颠覆的不是打字速度

埃兰德欧神

最近你有没有发现:大模型厂商开始“集体下场做键盘”了——豆包、智谱先跑起来,微信输入法也在 3.0 里明显加速跟进。乍一看像是又一轮应用内卷,但我反而觉得这事特...

100

[python]基于faster whisper实时语音识别语音转文本

用户11754185

语音识别转文本相信很多人都用过,不管是手机自带,还是腾讯视频都附带有此功能,今天简单说下:

2400

HarmonyOS第一课——HarmonyOS Intelligence与AI能力开放会给我们带来什么样的价值

红目香薰

Core Speech Kit功能:Core speechKit(基础语音服务)集成了语音类基础A!能力,包括文本转语音(TextToSpeech)及语音识别(...

4610

HarmonyOS TTS(文本转语音)功能使用指南

红目香薰

TTS(Text-to-Speech)是HarmonyOS提供的重要语音服务能力,可以将文本内容转换为语音播放。本文基于实际项目经验,详细介绍如何在Harmon...

4200

【征文计划】基于Rokid眼镜平台的AR历史情景课堂创意应用

fruge365

在数字化浪潮席卷教育领域的今天,传统课堂的教学模式正面临前所未有的挑战。尤其是历史学科,因其内容的时空局限性,学生往往只能通过文字、图片等静态载体间接感知历史,...

7310

KT148A语音芯片坏片原因分析 阻抗 供电脚异常及硬件改良方案

清月电子

测试后 1pcs 正常(误判),5pcs 物理损坏,烧写器报 E37(读不到 flash id)。阻抗对比测试显示,异常芯片 8 脚(供电脚)阻抗为无穷大,与正...

9910

从东北小城走出的AI语音破局者——魏佳星与云蝠智能的 “背水一战”

数据猿

近日,在南京VoiceAgent实时语音大会上,云蝠智能带着VoiceAgent 2.0惊艳亮相!虽在众声喧哗的智能语音赛道中音量不算最大,但这家公司的资历与积...

8410

AI智能体的“五官”与“四肢”:多模态感知与行动技术深度解析

用户6320865

语音感知使AI能够“听”懂人类语言,甚至理解语音中的情感和意图。语音感知技术主要包括语音识别和自然语言处理(NLP)两大方向。

26110

中国AI Agent产业化参考范本:斑马口语攻克的四大技术难关

机器之心

不过现实很骨感。一个完整的语音交互链路包括 ASR 语音识别(500-800ms)、大模型推理(700-1200ms)、TTS 语音合成(300-500ms),...

10910

Voices 能够让 Java 应用程序快速实现文本到语音转换

深度学习与Python

Coles: 我需要从 Java 生成语音,而大多数现代文本转语音(Text to Speech,TTS)库都是用 Python 编写的。最初,我将 piper...

11310

阶跃星辰语音模型负责人杨学锐确认出席 QCon 上海,分享从语音表征到模型架构的端到端语音模型实践

深度学习与Python

如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+ 可落地的实践案例!

12610

读懂5G新通话:可能是AI落地千行万业的首个全民级场景

Alter聊科技

如果你打过客服电话,大概率会有这样的体验:机械的语音提示一遍又一遍,“业务咨询请按1……人工服务请按0”,层层语音导航后,好不容易接通了人工,却又被告知“请您关...

17910

智元发布LinkCraft,针对人形机器人的“剪映”APP

点云PCL博主

除了将人类动作转化为机器人动作外,LinkCraft 还提供语音表演功能。用户可以通过三种方式与之交互:上传音频、在线录音或使用语音合成。

10010

一部爆燃MV,窥见国产大模型的天花板:音乐界DeepSeek背后的“思维链”核心技术解读

AI生成未来

Mureka 最新版本还上线了 TTS(Text To Speech,即文本转语音)功能,用户可以在 Mureka 同时体验 AI 音乐与 AI 语音生成,AI...

19710

AI的倾听艺术与语音交互温度教学——从语料清洗到唤醒响应的系统实践

安全风信子

四、系统拓扑(Mermaid) 引子:声音是一条不稳定的河流。我们在语料的沙砾间清洗、在唤醒的涟漪里判断,在ASR与NLU的桥上与人交谈,再用TTS把冷静而温...

16310

开源TTS语音克隆神器GPT-SoVITS_V2版本地整合包部署与远程使用生成音频

用户8589624

随着AI配音技术不断迭代,我们现在在视频平台经常能看到使用各种名人或是明星的声音,通过AI制作后达到以假乱真效果的各种搞笑视频或是音乐作品等娱乐内容。这个技术的...

55610

超好用的PC端语音转文字工具CapsWriter-Offline结合内网穿透实现远程使用

用户8589624

本文主要介绍如何在Windows系统电脑端使用这款超好用的PC端语音转文字工具CapsWriter-Offline,并结合cpolar内网穿透轻松实现使用客户端...

20810

32_语音到文本:Whisper与LLM集成_深度解析

安全风信子

OpenAI的Whisper作为一款开源的语音识别系统,在过去几年中经历了显著的演进。2025年的Whisper技术已经从最初的基础语音转文本功能,发展成为具备...

21810

2025年多模态AI系统中的语音处理与跨模态转换技术

安全风信子

多模态AI是指能够同时处理和理解语音、文本、图像、视频等多种模态信息的人工智能系统。语音处理是多模态AI的重要组成部分,它涉及语音识别、语音合成、语音理解等多个...

19710
领券