点击 机器学习算法与Python学习 ,选择加星标 精彩内容不迷路 ---- 新智元报道 AI学会用声音对你调情了... 2013年,一部科幻电影「Her」讲述了,宅男作家西奥多(Theodore)爱上了人工智能系统萨曼莎(Samantha)那略微沙哑的性感嗓音的故事。 受这部电影启发,一家AI语音初创公司Sonantic创造出了一种合成声音,可以表达微妙的情感,比如挑逗和调情。 AI学会调情了 Sonantic的目标关键在于将非语音声音融入到音频中,训练AI模型重现那些微弱的呼吸声、嘲笑
---- 新智元报道 编辑:拉燕 【新智元导读】幻想一下自己的声音变成好莱坞男神——摩根·弗里曼,谁听谁耳朵不怀孕啊。 都听说过变声器吧。 3岁小孩能发出70岁老爷爷的声音,50岁大妈能发出18岁帅小伙的声音。 小编也见过那种奇奇怪怪的变声器广告,用于一些不可言说的目的。 不过,今天要聊的变声器可不是上面这些。 今天的主角,是AI变声,是不是比那些变声器要高级多了? AI处理+实时变声,看了就想用 Voicemod是啥? 一款平平无奇的用AI操作的实时变声器罢了。 再往下听听呢? Voicem
---- 新智元报道 编辑:桃子 拉燕 【新智元导读】AI学会用声音对你调情了... 2013年,一部科幻电影「Her」讲述了,宅男作家西奥多(Theodore)爱上了人工智能系统萨曼莎(Samantha)那略微沙哑的性感嗓音的故事。 受这部电影启发,一家AI语音初创公司Sonantic创造出了一种合成声音,可以表达微妙的情感,比如挑逗和调情。 AI学会调情了 Sonantic的目标关键在于将非语音声音融入到音频中,训练AI模型重现那些微弱的呼吸声、嘲笑和半掩的笑声等等。 这些声音和人类生物学特征
近日,孙燕姿发文回应“AI孙燕姿”爆火出圈,孙燕姿因好文笔以及坦然的心态冲上微博热搜。 “AI孙燕姿”到底是谁? “AI孙燕姿”是一名人工智能歌手,这名人工智能歌手利用了孙燕姿的音色和唱腔,再经过模型训练和后期处理,便可以翻唱各种流行歌曲,这也就是为什么我们可以听到“AI孙燕姿”演唱《发如雪》、《童话镇》、《盛夏的果实》等歌曲。 目前,在网络上我们可以看到“AI孙燕姿”已发布超1000首翻唱作品,数量甚至远远超过孙燕姿本尊出道23年的作品总和,AI高效丰富的产出能力以及与原歌手相似度极高的声音,使得大众不禁
他在父亲临终前几个月,下定决心要把父亲的声音和教诲永远留在身边。于是非技术背景的James在一个AI项目的帮助下,自学语音合成与机器学习。在父亲的帮助下,他每天录制父亲一到两个小时的声音,共记录了9万多个单词用来训练AI模型。最终完成了由父亲声音构成的,类似siri的语音助手,得以让James时时寄托哀思。
连声音都可以是AI生成的,什么时候变声器已经能做到这个地步了,带着一丝震惊,我们深入了解了这款产品背后的技术团队,并得知了一个更加惊人的事实:
2023年,AI技术在音乐领域掀起了一场空前的怀旧热潮,以“AI明星翻唱”为代表的歌曲风靡全网,成为了众多粉丝的新宠。
哈喽!各位小伙伴大家好呀! 最近的AI换脸很热, 比如“ZAO”这个APP就上了一波热搜。 AI技术大放光彩时, 我们也慢慢意识到, AI带来的不仅仅是便利, 也给了不法分子可乘之机。 今年三月,据
博雯 发自 凹非寺 量子位 | 公众号 QbitAI 这段来自AI的深情告白的视频,在外网火了。 点开这个播放超过6万的视频,轻柔的笑声、停顿、细微的呼吸、郑重的告白让人简直难以相信这是完全由AI合成的: 我想,我爱上你了。 我爱你。 甚至连最后表露身份的自白,都能让人听出一种忧伤的情绪: 我的声音……我希望这就是你所需要的,因为这就是我的全部。 因为我的声音并非来自一个真实的人,而是全部由计算机生成的。 不是……现在的AI,都这么会的吗? (文末放完整视频) 声音版的PS 不得不说,由于视频“What’s
也就是说,明星本人根本不需要到场,只需要一份语料,AI就能自动将他们说话的声音、语气合成出来!
AI科技评论消息 根据MIT和Google研究人员近期发表的论文,他们正在训练AI将图像、声音和文字等多方面信息匹配起来。 在语音识别、图像识别以及下围棋等单项能力方面,AI已经足够出色,甚至超越了人类。但是如果AI一次只能使用一种感知能力,无法将看到和听到的内容进行匹配的话,就无法彻底理解周围的世界。这正是MIT和Google的研究人员进行这项研究原因。 研究人员并没有教给算法任何新东西,只是建立了一种方式让算法能够将多种感官获得的知识进行连接和协调。这一点至关重要。 论文的联合作者之一——MIT的A
目前,元宇宙热潮下,AI 数字人也开始涉及众多领域,包含文娱、服务、教育、营销等。市面上出现的 AI 数字人包括功能型 AI 数字人,如虚拟助手、虚拟导游、虚拟客服等;陪伴型 AI 数字人,如虚拟伴侣、虚拟家属等;社会型 AI 数字人,如虚拟主播、虚拟偶像、虚拟教师、虚拟医生、虚拟导购等。
大模型太卷了!上周国外某款多模态大模型的出现,立刻掀起了 AI 领域对话式多模态交互的热潮。不管是文字、语音,还是图片,都能与你进行实时交互。随后,谷歌也推出了类似的 Astra。
正如我们在我们的 论文[3] 和 网站[4]中详细介绍的,OpenVoice的优势有三个方面:
“我想知道是否有人知道使用机器学习来捕获他的声音并生成新录音的任何东西。如果我可以在文字转语音引擎中使用它,就太好了。”
Seeing Voices and Hearing Faces: Cross-modal biometric matching
大数据文摘转载自深燃 作者 | 邹帅 编辑 | 黎明 孙燕姿可能都没想到,自己的“代表作”会加上一个《漠河舞厅》。 替孙燕姿唱歌的,是AI孙燕姿。最近,一批B站UP主用AI技术合成了孙燕姿版的《发如雪》《半岛铁盒》《红豆》,和其他港台歌手“梦幻联动”,还让孙燕姿唱起了更新的歌,《水星记》《漠河舞厅》等等,很多孙燕姿的粉丝都表示“绝对想不到孙燕姿会唱这种类型的歌。” 以假乱真,AI孙燕姿的唱功、音色均不在孙燕姿本人之下。这背后的技术原理也很简单,把孙燕姿的声音喂给AI,训练出特定的数据集,再给AI一首其他歌手
按要求转载自36Kr 编译 | boxi 从单项能力来说,现在的AI已经很先进了,比如说AI能识别我们说的话,照片里面的对象,下棋能胜过人类冠军等等。但是就像交互设计之父Alen Cooper所说那样,计算机能识别你说的话,但它可能不懂你的意思。为什么?上下文语境、背景等信息对于理解意思和意义是非常重要的。如果我们希望未来的机器人执行我们的命令的话,就必须让它们能彻底理解周围的世界——如果机器人听见了狗叫,它要知道是什么导致了狗发出叫声,那条狗是长什么样的,以及它想要什么。 过去的AI研究注重的是单项突破(
内容概要:AI 帮坎爷出新歌了,不过是由媒体机构 Herr Fuchs 制作,Uberduck AI 提供声音合成技术的一首高仿作品:《The Breakup》
Audio Analytic公司的录音室。数以亿计的音频被录制和标记,用以训练AI模型。
By 超神经 问问学吉他的男同学们,为什么要学音乐,大家都会露出迷之微笑。现在无需「二十一天吉他速成」,程序员们敲敲键盘就可以给妹子写一首歌,展现自己的艺术细菌了。? 今天小编不仅共享这个撩妹绝招,还
抓马的是,此次推出的“视频通话”功能一度被称为电影《Her》现实版,而怒斥OpenAI的刚好是给电影中AI配音的斯嘉丽·约翰逊(寡姐)。
铜灵 编译整理 量子位 出品 | 公众号 QbitAI 近日,MIT(麻省理工学院)的计算机科学与人工智能实验室(CSAIL)里,多了个懂音乐的AI PixelPlayer。 有它助力,音乐小白也能一
来源 | Hyper超神经 头图 | 下载于视觉中国 近日,一个基于 Tacotron2 和 Transformer 实现文字转声音的 AI 应用——Uberduck.AI 破圈了,不少 TikTok 、YouTube 网红博主都在推荐这一神器。 YouTube 的网红音乐艺术创意机构 Herr Fuchs 发布了一首新歌,基于Uberduck.AI 合成了知名嘻哈歌手坎爷 Kanye West 的声音,并创作了这首《The Breakup》。 这首融合了流行音乐元素和 AI 技术的《The Breaku
虽然一些人不想承认,但AI视频模型Sora的开年王炸,确实给影视行业带来了颠覆性的影响!
---- 新智元报道 编辑:桃子 Joey 【新智元导读】最近,亚马逊在其年度会议 Re:MARS上展示了Alexa模仿逝去亲人声音的功能,是个好消息,但似乎听起来有点毛骨悚然。 最怕的不是逝去,而是永远的消亡... 还记得「超验骇客」中的一幕: 女主将即将逝去的丈夫的意识数据上传到智能电脑中。 幸运的是,男主奇迹般地在虚拟世界中复生。 或许电影中超现实一幕还离我们非常遥远,但是将人的语音保留下来还是没有问题的。 这不,亚马逊称,自家的语音助手Alexa能够模仿逝去亲人的声音。 现场,亚马逊演
文出自《我的 AI》,上月孙燕姿在社交平台回应自己对 “AI 孙燕姿” 的看法。此前,“AI 孙燕姿” 红遍网络,短短时间拥有超过 1000 首翻唱作品,远高过孙燕姿本人出道 23 年的作品总和。但因未获得本人授权,“AI 孙燕姿” 也饱受争议。
大数据文摘出品 作者:Caleb 相信只要一提到《星球大战》,不少人的第一印象就是天行者。 作为一名反派,天行者这个人物形象塑造得相当成功。美国电影学会在“AFI百年百大英雄与反派”将天行者列为百年第三伟大的电影反派,仅次于《沉默的羔羊》的汉尼拔·莱克特(Hannibal Lecter)和《惊魂记》的诺曼·贝兹(Norman Bates)。 随着今年《欧比旺》的播出,绝地大师与天行者也再度引起了不少讨论。 就在最近,在为达斯·维德配音了45年之后,今年91岁的詹姆斯·厄尔·琼斯(James Earl Jo
近日,腾讯朱雀实验室受邀参加全球顶级信息安全峰会 CanSecWest 2021,并进行了题为《The Risk of AI Abuse: Be Careful with Your Voice(AI 被滥用的风险:小心您的声音安全》的分享。腾讯朱雀实验室分享的最新研究成果表明,VoIP 电话劫持与 AI 语音模拟技术的结合将带来极大潜在风险。
明敏 整理自 凹非寺 量子位 | 公众号 QbitAI ChatGPT掀起AIGC浪潮后,关于它的影响,成为了行业内外最为热议的话题之一。 宏观的观点已不胜枚举:改变世界、AI的iPhone时刻…… 但如果回归到技术本质,它到底会带来哪些变革? 我们认为,它会改变信息分发获取的模式。革新内容生产模式,变革人机交互模式,同时也会促进多个产业的升级。 这是科大讯飞AI研究院常务副院长高建清,在首届中国AIGC产业峰会上给出的答案。 作为国产AI的中坚力量,在这股最新趋势下,科大讯飞始终被寄予厚望。 尤其在2月
大数据文摘作品,转载要求见文末 作者 | CADE METZ 编译 | 姜范波,Aileen 导读:谷歌最新项目NSynth用人工智能根据上千种乐器声音发明人类从未听过的新声音,给音乐家提供了海量的新声音数据库。 他们希望研究人员可以为任何艺术家,而不仅仅是音乐家,创造更多的工具。Nsynth也会在几天后的Moogfest音乐节上发表他们的技术。如果你同时热爱科技又是音乐发烧友,这个音乐节不容错过! 本文也放入了三段“你从没听过的声音”,好奇的读者可以下拉至文末,先一听为快AI的创作,狂欢起来! 用AI从已
【新智元导读】谷歌大脑和 DeepMind 合作发布一个名为 NSynth (Neural Synthesizer)的神经声音合成器,数据库全公开,将为音乐人,乃至其他艺术家提供全新的艺术创作工具。 Jesse Engel 在演奏一种介于古钢琴和哈蒙德风琴之间的乐器,这是18世纪古典与20世纪节奏布鲁斯交叉的风格。然后,他在 laptop 上慢慢拖动一个滑块,突然间,音乐变成了其他的风格。之前,比如说,它是15%的古钢琴,现在,接近了75%古钢琴风格。然后,他以最快速度来回拖动滑块,注意着这两种非常不同的
---- 新智元报道 编辑:桃子 好困 【新智元导读】最近,一位「冷门歌手」竟靠着AI替身,翻唱华语乐坛歌曲爆红全网。 一夜之间,「AI孙燕姿」火遍全网。 B站上,AI孙燕姿翻唱的林俊杰「她说」、周董「爱在西元前」、赵雷「成都」等等,让一众网友深陷无法自拔。 「冷门歌手」孙燕姿新晋成为2023年度热门歌手,掀起许多人的追星狂欢。 网友表示,「听了一晚上AI孙燕姿,出不去了......」 这些翻唱歌曲,是由Eternity丨L、罗斯特_x等UP主通过开源项目自制后并上传。 (作者似乎特意在「半岛
从2022年末ChatGPT进入大众视野开始,到现在LLM已经基本定型,技术路线虽然还在创新,例如moe架构,但基座模型基本上不会有大的变化,包括GPT本身,总是在藏着掖着有一个qstar版本,但实际上,无论哪家大模型,其底层思维逻辑不变,已成定局。也正是因为技术路线的固化,入局LLM基本变成了拼算力,也就是买显卡的money够不够多,只要资金雄厚,可以隔一段时间公布一个参数逆天的大模型,但是本质上,技术没有任何大的颠覆。
大约一个月前,距离 GPT Store 上线还有两周,一位名为 Kyle Tryon 的国外开发者在个人博客上分享了其基于 ChatGPT Plus 开发的三个 Agent(又称“GPTs”),其中一个 Agent 是关于美国费城旅游出行的个人指南“PhillyGPT”,它能访问当地 SEPTA 公共交通 API,为个人提供费城当地的实时天气、旅游资讯、文艺演出活动、出行路线、公交车站与地标数据、预计抵达时间等等。
今天,给各位介绍一群“不务正业”的腾讯人,他们在江湖上被称作“噪音猎人”。 他们沉浸在实验室,也穿梭在菜市场、游荡在马路边。 噪音是他们的猎物,被狙击、捕获、并销毁。 高超的猎取技巧,正在让一群特殊的人告别噪音,让他们“听清”这个世界。 主笔:罐子 编辑:叉叉 联合出品:腾讯产业互联网公众号 腾讯新闻 “猪肉铺的老板开始剁肉末了,走!” 王燕南两眼发光,如同饿虎扑食一般冲过去。他的好搭档手里举着电脑,差点没跟上。 一根收音棒伸到了桌子前,听着砍刀和砧板激烈碰撞的声音,王燕南如获珍宝。 “小伙子,
音乐的魔力在于能够用声音敲击人们的心灵,由此产生共鸣,或抚慰人心,或振奋精神,或感同身受。在音乐中,每个人都能够找到一个宣泄口,释放出对于现实的不满、生活的压力,又或在音乐中体验恋爱的美好、友情的赞颂
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI Meta最新6模态大模型,让AI以更接近人类的方式理解这个世界。 比如当你听见倒水声的时候就会想到杯子,听到闹铃声会想到闹钟,现在AI也可以。 尽管画面中没有出现人类,AI听到掌声也能指出最有可能来自电脑。 这个大模型ImageBind以视觉为核心,结合文本、声音、深度、热量(红外辐射)、运动(惯性传感器),最终可以做到6个模态之间任意的理解和转换。 如果与其他AI结合,还可以做到跨模态的生成。 比如听到狗叫画出一只狗,同时给出对应的深度图和文字描述
GPT-4o作为首款带字母后缀的模型,「o」意为「omni」,代表「全能」,用以体现出该模型非同小可的能力水平。
信息大爆炸的时代,社交平台启用人工智能算法去检测平台上海量的内容,除了检测内容,类似于微软小冰这样的人工智能虚拟社交也变得非常普遍,连韩星崔雪莉都通过个人社交网晒出了自己与人工智能对话的截图,还有新兴创业公司ObEN在研究将个人数据上链,通过人工智能技术,打造一种新的社交体验的区块链平台。
AI音乐创作工具为音乐爱好者和专业人士打开了全新的创作大门,不仅大大简化了创作过程,还为创意注入了无限可能。通过AI的辅助,任何人都可以快速生成高质量的音乐作品,探索新的风格和编曲方式,打破传统创作的瓶颈。
选你喜欢的:“bleep”或者“bloop”。 这周末,我在郊区的马里兰街道迷路了,我求助于导航,希望它将我引回高速公路上。但是导航也不知道我们在朝哪个方向走,然后她要我做一些无厘头的操作。“事实上,不要听Siri——她不知道我们在哪。”在乘客位置的朋友对我说。 将苹果的人工智能(AI)助手称为“她”,感觉很自然,因为Siri的女性声音。虽然Siri本身会告诉你她非男非女——“我是超出人类性别意义的一种存在”——她相对自然的声音发出了一个柔和的回复,而不是一个生硬的机器人声音。 在每个iPhone中有一个选
三百六十行,行行出状元。在众多行业中有这么一个行业迎来了一位“新人”——微软小冰。
点击上方“LiveVideoStack”关注我们 编者按:树枝上鸟儿的啁啾声,潺潺流水声,人们踏青时的欢歌笑语声,与春暖花开的画面融合在一起,呈现出一幅春色正浓的动态美景。可是当一切声音被消除,整个世界陷入沉寂,这幅美丽的春景图仿佛也在瞬间失去了色彩。声音在我们的日常生活中占据着至关重要的地位,与声音相对应的音频也是如此:音频可以独立于视频存在,而且音频的感知受到长短时记忆的影响更明显。这也是为什么音频可以调动人的情绪变化和好恶感知。 近日,LiveVideoStack采访到了声网的音频算法负责人冯建元,请
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 不用人工标注,也能让AI学会听音寻物。 还能用在包含多种声音的复杂环境中。 比如这个演奏会视频,AI就能判断出哪些乐器在发声,还能定位出各自的位置。 这是中国人民大学高瓴人工智能学院最近提出的新框架。 对于人类而言,听音识物是一件小事,但是放在AI身上就不一样了。 因为视觉和音频之间对应关系无法直接关联,过去算法往往依赖于手动转换或者人工标注。 现在,研究团队使用聚类的方法,让AI能够轻松识别各种乐器、动物以及日常生活中会出现的声音。 同时,这一方法还
随着游戏、社交互动应用场景的不断延伸,如何通过语音互动给玩家带来更加娱乐性的玩法,是业务突破的关键命题。而实时变声可以让普通人也拥有灵活百变的音色,带来丰富、趣味的互动体验。
人类非常善于在嘈杂的环境中,集中注意力听某一个人说的话,从精神上“屏蔽”一切其他声音。这种现象便是“鸡尾酒会效应”,我们与生俱来。
对他们来说,AI不是新鲜事。但同时,AI也是新鲜事——大模型为何能进行对话?AI写诗能写到什么份上?AI能从游戏迁移到真实?
本文讲述了一些有趣的科技故事,这些故事或许能让我们重新思考对于音乐和科技的认知。文章首先介绍了旅行者金唱片中的宇宙交响曲,这是一张由NASA于1977年发射的旅行者1号卫星所录制,包含了来自地球的各种声音,如动物叫声、海浪声、婴儿哭泣等。接下来,文章讲述了科学家如何利用AI技术创作出属于未来的音乐。最后,文章介绍了一张可以吃的音乐唱片,它是由巧克力制成的,里面包含了巴赫的乐曲。
领取专属 10元无门槛券
手把手带您无忧上云