首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#语音

Parakeet V2:NVIDIA 打造的“超级听写机”,让语音识别快准稳!

GPUS Lady

在我们日常生活中,语音识别已经成为手机助手、字幕生成、会议记录等场景中的重要技术。5月1日,NVIDIA 推出了一个全新语音识别模型——Parakeet-tdt...

51610

Linux 开发板接入OpenAI 实时语音聊天实战

郑子铭

前面我们介绍如何使用纯前端技术实现接入 OpenAI 的实时语音聊天接口,也了解如何使用 .NET 在 Linux 上实现基础的语音录制和播放功能并可以驱动 L...

7410

AI数字人:繁荣背后的伦理困境与法律迷局(8/10)

正在走向自律

在科技飞速发展的当下,AI 数字人已从科幻设想走进现实,成为多领域变革的新引擎。它融合了三维建模、动作捕捉、语音合成及多模态交互等前沿技术 ,构建出高度仿真的虚...

26710

我把AI接上了Figma、WhatsApp、浏览器……然后它开始自己动起来了!

前端达人

你家的 AI 助手,突然接过你的手机,自己发了条微信。 紧接着,它点开了 Chrome,滑动了几下网页,做了个表单提交。

16510

AI|微信又又又有大动作了,直接把Deepseek变成了你的微信好友!

琉璃康康

这位新朋友搭载了DeepSeek和混元双引擎,能快速处理复杂问题,分析我们的语音、文字、图片、分享的文章等内容。

10010

AI涌现人类情感!希腊「乐之神」Orpheus开源,单卡可跑语音流式推理

新智元

对此,Canopy Labs的开源开发者Elias表示Orpheus就像人类一样,已经拥有共情能力,能从文本中产生潜在的线索,比如叹息、欢笑和嗤笑。

12210

免费用!阿里通义大模型上新,超逼真音视频生成SOTA!

机器之心

近日,阿里通义实验室推出了全新数字人视频生成大模型 OmniTalker,只需上传一段参考视频,不仅能学会视频中人物的表情和声音,还能模仿说话风格。相比传统的数...

16210

OpenAI深夜发布3个全新的语音模型,一手实测都在这了。

数字生命卡兹克

2个比Whisper更好的语音转文本的STT模型:gpt-4o-transcribe和gpt-4o-mini-transcribe,1个文本生成语音的TTS模型...

5100

OpenAI全量上线4o视频通话 - 我们等了7个月。

数字生命卡兹克

大家也都见识到了,高级语音模式的威力,能模仿情绪、能唱歌、能演戏。在小红书和X上,已经看到无数人,在用它来做情感陪伴、练口语等等。

2600

30秒就能完美复刻你的声音,这就是当今最强的中文AI语音克隆。

数字生命卡兹克

而前者,随着上周的即梦v2.1,得到了很好的解决。后者,过往有N多产品试图去解决,但是解决的都很差。

11810

智谱AI上线4K60帧"新清影",还要直接开源,我觉得他们疯了。

数字生命卡兹克

但是最牛逼的是,他们直接宣布,把这个“新清影”背后的底层模型,也就是CogVideoX v1.5,直接开源了。。。

8700

现在都在用AI辅助面试,当年我求职的时候也好想有。

数字生命卡兹克

所以,综合下来,这段Prompt,肯定是拿去给ChatGPT的APP用,最为合适,发送给他以后,直接开启语音对话模式。以达到最好的模拟面试效果。

7510

今年的520,很多人决定只跟AI“谈恋爱”

数字生命卡兹克

直到去年国庆期间,ChatGPT的语音对话上线,人们惊喜的发现,DAN用来做虚拟陪伴,配合上ChatGPT那强到爆炸的语音功能,居然出奇的好用。

7800

OpenAI春季发布会:这是"Moss"的诞生,我们人类究竟该何去何从。

数字生命卡兹克

每一次的PR的时间点,都拿捏的极其到位,精准的狙击其他厂商。比如说上一次Sora,其实你会发现从头到尾就是一个PR的举动,2月16号发的,特么的快3个月了,什么...

4100

从自动打招呼看一对一直播源码开发的强运营属性功能

用户10015986

在一对一直播平台的源码开发中,自动打招呼功能看似简单,实则蕴含着丰富的运营智慧。这一功能不仅是技术实现的展示,更是平台运营策略的重要载体。自动打招呼作为用户进入...

11110

原生多模态大模型也能强化学习,思维链长达几万字,商汤日日新V6来了

机器之心

给孩子讲绘本故事也让不少家长头疼,虽然绘本图文并茂,但照本宣科讲出来就显得干干巴巴。商量则通过多模态识别与语音表达技术,将绘本内容进行情感化演绎,融入语音互动或...

14310

[特殊字符] 学习效率原地起飞!我用这两个 AI Prompts + 一个麦克风,彻底颠覆了我的学习方式!

訾博ZiBo

我要跟你分享一个我亲身实践、效果炸裂的全新 AI 学习方法。它不仅让我的学习效率飙升,更重要的是,它让学习过程变得前所未有的深入和有趣!

4200

虚拟偶像“C位出道”:数字浪潮下的崛起与财富密码(3/10)

正在走向自律

解释:此代码使用gTTS库将文本合成语音,并使用Pygame播放语音,展示虚拟偶像的语音合成能力。

26610

MoCha:开启自动化多轮对话电影生成新时代

机器之心

近年来,视频生成技术在动作真实性方面取得了显著进展,但在角色驱动的叙事生成这一关键任务上仍存在不足,限制了其在自动化影视制作与动画创作中的应用潜力。现有方法多聚...

12710
领券
首页
学习
活动
专区
圈层
工具
MCP广场