首页
学习
活动
专区
圈层
工具
发布

#语音

牛!一款国产AI语音登顶全球第一,首个可编辑语音模型来了!

开源星探

无论是短视频配音、有声书制作,还是游戏角色语音生成,AI语音都在深刻改变着我们的创作方式。

3000

Claude Code 语音模式上线!按住空格说话,Coding 效率直接起飞

用户1640761

各位正在用 Claude Code 刷终端、修 Bug、建 Feature 的 coder 们, 好消息直接砸脸了!

7010

Voicebox:本地优先的 AI 语音工作室

山行AI

这就是 Voicebox 的核心价值:它把语音输入、语音输出、语音创作和 Agent 语音交互放在同一个本地闭环里。

11310

PHP Neuron V3 正式全面支持多模态

Tinywan

这些组件对于创建本地语音助手以实现免提与模型交互非常有帮助。典型的流程包括捕获音频,使用单独的语音转文本(STT)服务将其转录为文本,将文本发送到代理进行处理,...

8610

AI 赋能自动语音诈骗全链路检测与 STIR/SHAKEN 协同防御研究

芦笛

中国互联网络信息中心 | 工程师 (已认证)

AI 技术规模化普及推动自动语音外呼(Robocall)、语音钓鱼、垃圾骚扰通信形成产业化黑产,传统静态黑名单、单一号码拦截手段难以适配攻击者动态规避策略。美国...

8010

Shopify Shop 应用虚假订单收据语音钓鱼攻击机理与防护研究

芦笛

中国互联网络信息中心 | 工程师 (已认证)

移动端统一订单聚合类 App 依托多渠道订单同步能力简化用户购物查询流程,但数据聚合机制带来的信任边界模糊问题催生新型社会工程钓鱼攻击。本文以 2026 年 6...

11510

DevSecOps 视角下语音钓鱼(Vishing)通信安全全链路防护研究

芦笛

中国互联网络信息中心 | 工程师 (已认证)

AI 深度伪造语音技术普及推动网络攻击由邮件钓鱼(Phishing)向语音钓鱼(Vishing)迁移,传统 DevSecOps 体系仅聚焦代码、应用层安全,忽略...

8610

自部署 LiveKit 的降噪与回声消除:能力边界与工程选型

buzzfrog

这已经能覆盖很多常见场景。只有当用户环境很吵、语音识别准确率要求很高,或者存在多人背景说话干扰时,再考虑更强的降噪或语音隔离方案。

7210

Qwen3.5-Omni 技术报告精读:一个模型同时"看、听、说",215 项 SOTA 正面挑战 Gemini

唐国梁Tommy

ARIA 的做法是在文本 token 与语音 token 之间做动态对齐,让 Talker 在生成每一段语音单元时,都能精确锚定到对应的语义片段。结果是:

16200

微软 VibeVoice:迈向超长、高质量、多人的对话语音生成

唐国梁Tommy

在AI语音合成领域,我们已经习惯了手机导航的清晰指引、智能音箱的简短应答。这些单一、短句的文本到语音(Text-to-Speech, TTS)技术已相当成熟。但...

12810

小微智能体v2.2:让陪伴智能体更像真的在你身边

陈宇明

在 小微智能体v2.0 中,你可以直接在小程序里创建通用型智能体,用来做问答、客服、内容创作、学习助手等。

10410

美加墨世界杯裁判三件套

bisal

1. 哨子和麦克风:裁判嘴里含着传统的哨子,嘴边配有麦克风,用于与视频助理裁判(VAR)及场上其他裁判进行清晰的语音沟通。

14510

微信 “CallKit”还有人知道吗?苹果升级 LiveKit 新框架!

搜罗资料

一直期盼微信拥有 CallKit 同款体验的果粉,如今迎来重磅好消息了,苹果对 LiveKit 框架进行大规模功能升级,综合表现超过完整 CallKit。简单说...

10110

Nature | 利用语言模型绘制人类语言的神经元构建模块图谱

DrugAI

人类能够通过语言传递新的、极其多样的信息。将词语组合成复杂短语和句子的能力,使人类可以表达几乎无穷无尽的意义,也是人类认知的核心基础。然而,精确支撑人类语言的微...

10610

把九九乘法表装进口袋:我给孩子做了一款会听、会说、会复盘的乘法口诀 App

Michael阿明

最近给孩子做了一个小工具:TimesTableGO,一个安卓端乘法口诀背诵 App。

9210

107 分钟的会议录音,免费转文字+自动标注说话人

勇哥AI笔记

周末录了一段 107 分钟的音频,先是直接用 MiMo-v2.5-asr 的语音识别转成了文字。

15810

音频信号的Token化方案:如何让声音进入大模型?

gavin1024

直接语义理解:无需借助外部ASR等工具,可直接对语音内容进行处理,理解语音中的语义信息。

13510

首个语音智能体端到端测评出炉:Grok登顶,真实场景通过率仅一半

用户11563501

Artificial Analysis推出业内首个语音转语音(S2S)智能体端到端性能基准τ-Voice,专门测试语音智能体在真实客服场景下的工具调用和多轮交互...

8610
领券