声音辨别python_python 声音_图片辨别 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

重磅丨直击“人机大战”第二轮：声纹识别百度小度1:1战平人类，比赛的背后究竟发生了什么？

如果说在上一轮人机大战的人脸识别对决中，由于小度对阵了并不擅长人脸识别的王峰，令比赛意义打了折扣，那么昨天进行的第二轮声音识别的人机大战，虽然最终只是战平，但对于AI 界的意义却似乎更大。原因有两点：一、公认实力顶尖的对手；二、业界公认困难的比赛内容。在对手上，此次迎战百度小度的是名人堂公认最擅长声音辨别的选手孙亦廷，他辨别声音细节的能力在名人堂无出其右，能通过水球从0~70米高空坠地破碎的声音，来准确辨别水球下落时的高度。这相当于在一根70米长的琴弦上拉奏任意位置，他都通过音高准确辨别拉弦的位置，甚至

05

Nature子刊：灵活的语音皮质编码可增强与任务相关的声学信息的神经处理

语音是我们日常生活中最重要的声音信号。它所传递的信息不仅可以用于人际交往，还可以用于识别个人的身份和情绪状态。最相关的信息类型取决于特定的环境和暂时的行为目标。因此，语音处理需要具有很强的自适应能力和效率。这种效率和适应性是通过早期听觉感觉区域的自下而上的物理输入处理和自上而下的听觉和非听觉(如额叶)区域驱动的自上而下的调节机制之间的积极相互作用实现的。因此，交互语音模型提出对输入进行初始自下向上的处理，激活声音的多种可能的语言表示。同时，高水平的语音识别机制会对这些相互竞争的解释产生抑制作用，最终导致正确解释的激活。因此，自上而下的调节被认为改变了自下而上的语音处理。然而我们尚不清楚这些自顶向下的调制是否以及以何种方式改变了声音内容的神经表征(以下简称语音编码)。这些变化发生在皮层处理通路的什么部位也不清楚。

03

您找到你想要的搜索结果了吗？

是的

没有找到

漫画台词语音输出，还带感情！娱乐学习可两用，北理参与

不知道有多少人和文摘菌一样，看漫画的时候会自动脑补角色的声音、把漫画在脑子里自动给变成动漫。

01

Linux音频驱动-声音采集过程

现实中的声音是一段连续的信号，现在大部分的声音是以离散的数字信号保存下来，例如CD、MP3音频格式。在保存这些信息时，考虑到对声音质量和存储的效率，需要对声音的几个重要的基本属性进行研究。

01

人民大学提出听音识物AI框架，不用人工标注，嘈杂环境也能Hold住，还可迁移到物体检测

明敏发自凹非寺量子位 | 公众号 QbitAI 不用人工标注，也能让AI学会听音寻物。还能用在包含多种声音的复杂环境中。比如这个演奏会视频，AI就能判断出哪些乐器在发声，还能定位出各自的位置。这是中国人民大学高瓴人工智能学院最近提出的新框架。对于人类而言，听音识物是一件小事，但是放在AI身上就不一样了。因为视觉和音频之间对应关系无法直接关联，过去算法往往依赖于手动转换或者人工标注。现在，研究团队使用聚类的方法，让AI能够轻松识别各种乐器、动物以及日常生活中会出现的声音。同时，这一方法还

04

深度学习在新冠肺炎检测方面的应用

春节将近，核酸检测成了回家过年的必备品，此时有多少人为了等待一根棉签，在手机上疯狂的点击预约按钮，如果这个时候有人告诉你，有一种新的检测方式，能够对新冠肺炎进行检查与筛选，你会使用吗~；近来，MIT部分研究学者利用深度学习相关的技术手段，对咳嗽的声音进行特征分析，准确的识别出人们是否感染新冠病毒，其准确率高达98.5%，相关的技术有望直接集成到手机app端口，大大简化核酸检测的流程，具体内容如下所示：

02

Python技术周刊：第 6 期

欢迎来到《Python技术周刊》这是第6期,每周六发布,让我们直接进入本周的内容。由于微信不允许外部链接,你需要点击页尾左下角”阅读原文“,才能访问文中的链接。

03

让机器听声音识别男女（机器学习的方法）

注：该文件主要是用来构造训练过程中的特征文件，需要人为的标定male或者female。对生成的male.csv和female.csv文件再合并成为train.csv文件，用于训练。

05

「蚂蚁呀嘿」克星来了！中科院23岁博士生开发「听音识人」，准确率近90%

看脸和声音是否匹配，这种黑科技如今走向了现实。中科院计算所23岁的博士生温佩松主导开发出一种「听音识人」的 AI 技术，只需1秒就能将声音和正确人脸进行匹配，准确率接近 90%。

04

警惕！AI变声技术造就新型诈骗！

哈喽！各位小伙伴大家好呀！最近的AI换脸很热，比如“ZAO”这个APP就上了一波热搜。 AI技术大放光彩时，我们也慢慢意识到， AI带来的不仅仅是便利，也给了不法分子可乘之机。今年三月，据

01

算法眼中的世界是什么样子？他们用一些彩色方块画了出来

安妮编译自 Wired 量子位出品 | 公众号 QbitAI 从数字助手、加密数字货币到自动驾驶汽车，算法在生活中无处不在。这是个抽象的概念，对于不了解人来说，算法的工作机制很难理解。“没有什么可以帮助我们决定是否能信任这些系统，或者可以选择哪一个。”伦敦艺术与科技工作室FIELD的创意总监Marcus Wendt说。 “我们需要更好地理解它们，然后决定是否要让它们进入我们的生活。”Wendt补充道。为此，FIELD工作室基于计算代码的结构专门创建了一系列图像。这种新的可视化表示，或许能帮助你理解算

08

谷歌新玩具Vision Kit，带你DIY一个能识别千种物体的AI摄像头

原作 Billy Rutledg Root 编译自 blog.google 量子位出品 | 公众号 QbitAI 今天，谷歌AIY项目新推出视觉感知套件Vision Kit。 AIY系列项目（全称是

05

iDAQ汽车NVH与噪声定位系统

NVH(Noise、Vibration、Harshness噪声、振动与声振粗糙度）是衡量汽车制造质量的重要参数，可分为发动机NVH、车身NVH和底盘NVH三大部分。NVH直接决定着驾乘汽车的舒适度，有统计资料显示，整车约有1/3的故障问题是和车辆的NVH问题有关系，而各大公司有近20%的研发费用消耗在解决车辆的NVH问题上。

02

当VR画面可以做的很逼真时，VR音频的发展又如何呢？

VR可以说是当下最火热的科技趋势之一，但VR音频技术却从没有在专业音频领域获得热捧。虽然音频技术几乎是和视频服务一起进入市场，但在VR游戏、VR电影等中的表现却远不如画面更“吸睛”。

02

睡眠与清醒——感觉如何转化为意识体验？

一项新的研究发现，在睡眠期间，大脑对声音的反应仍然很强烈，但有意识注意力的另一个关键特征消失了。这可能为清醒状态下感觉如何转化为有意识的体验提供了新的观点。

03

人工智能：声纹相关基础概念介绍

现实生活中大家可能比较常见的是指纹识别，比较常见的使用场景有手机指纹识别、智能门指纹识别等方面，那么什么是声纹呢？

02

附带深度语音伪造检测的语音平台

人工智能与机器学习是合成语音的强大工具。无数研究表明，在最先进的模型中，只需几秒钟就可以精确地模仿受试者的声音韵律和语调。例如，百度最新的深度语音服务可以用3.7秒的音频样本克隆一个语音，7月份的一篇研究论文发布的克隆实现只需要大约5秒。

03

专栏 | 李沐《动手学深度学习》第一章：机器学习简介

机器之心专栏作者：李沐《动手学深度学习》是一本深度学习在线书，其使用 Apache MXNet 的最新 gluon 接口来演示如何从 0 开始实现深度学习的各个算法。作者利用 Jupyter notebook 能将文档、代码、公式和图形统一在一起的优势，提供了一个交互式的学习体验。《动手学深度学习》链接：http://zh.gluon.ai/index.html# 本书作者跟广大程序员一样，在开始写作前需要来一杯咖啡。我们跳进车准备出发，Alex 掏出他的安卓喊一声「OK Google」唤醒语言助手，

05

小米这款智能眼镜：48小时完成开发，专为视障人群打造

一副眼镜，让视障人士也能感知到周围的物体；一块屏幕，可以让听障人士「看」到周围声音的方向和类别……

03

李沐：从头开始介绍机器学习，眼花缭乱的机器学习应用

【新智元导读】亚马逊的李沐也要做深度学习课程了，名字叫《动手学深度学习》，侧重代码和实现。第一课的直播9月9日开始。昨天，他在知乎写了下面这篇文章，从头开始介绍机器学习。“精确定义机器学习就像定义什么是数学一样难，但我们试图在这章提供一些直观的解释。” 本书作者跟广大程序员一样，在开始写作前需要去来一杯咖啡。我们跳进车准备出发，Alex掏出他的安卓喊一声“OK Google”唤醒语言助手，Mu操着他的中式英语命令到“去蓝瓶咖啡店”。手机这时马上显示出识别的命令，并且知道我们需要导航。接着它调出地图应用并给出

05

开发 | MxNet李沐：机器学习简介——动手学深度学习0.1

AI科技评论注：本文作者为深度学习平台MxNet的作者李沐，文章由AI科技评论整理自作者的机器学习网站“动手学深度学习”。在这个网站中，李沐介绍了他做这个项目的初衷：两年前我们开始了MXNet这个项目，有一件事情一直困扰我们：每当MXNet发布新特性的时候，总会收到“做啥新东西，赶紧去更新文档”的留言。我们曾一度都很费解，文档明明很多啊，比我们以前所有做的项目都好。而且你看隔壁家轮子，都没文档，大家照样也不是用的很嗨。后来有一天，Zack问了这样一个问题：假设回到你刚开始学机器学习的时候，那么你需要什么

04

AI学会了“闻”声看病，莫非要走老中医的“望闻问切”之路？

去年你看过120帧的电影《比利·林恩的中场战事》么？嗯，画面真是清晰。你有没有注意到里面提到的一个细节：姐姐发现林恩从战场回来后，患上了PTSD，也就是“创伤后应激障碍”。不过今天『量子位』不是要谈这个电影，而是从PTSD谈起。 Charles Marmar是一位从业40年的精神科医生，但是当一个战后的退伍老兵走入他的办公室时，他还是不能对PTSD进行100%的确诊。不过，作为纽约大学Langone医学中心精神病学习主任，Marmar正在尝试从声音中找到答案。语音样本是关于人的健康的丰富信息源，研究

09

研究者利用AI分析星体内部，可能判断出星体年龄与构成

利用AI和声波，研究人员发现了一种观察恒星内部的可能方法。它基于这样一个事实，即恒星不是固体物。它们是激烈的，振动的等离子球，由它们自身的引力和核心的高能核反应结合在一起。现在，研究人员表示他们已经开始通过观察从核心传播到地表的振动来找到辨别恒星内部状态的方法。

06

小孩都看得懂的 GAN

本文是「小孩都看得懂」系列的第十八篇，本系列的特点是内容不长，碎片时间完全可以看完，但我背后付出的心血却不少。喜欢就好！

02

声音的表示（1）：作为音视频开发，你真的了解声音吗？丨音视频基础

（本文基本逻辑：声音的定义是什么 → 声音有哪些特征 → 怎样对声音进行数学描述 → 怎样对声音进行数字化 → 数字音频数据是什么）

02

学界 | MIT最新：机器学习首次模仿大脑处理声音，能辩歌词和歌曲分类

大数据文摘作品编译：大茜、笪洁琼、云舟你是否对于Spotify之类的软件产生过这样的疑问：“Spotify，你放音乐的时候在想什么？”实际上这类软件可能会像你一样思考。一项麻省理工学院的新研究表明，科学家们构建了一个机器学习系统，可以像人类一样处理声音，能够辨别歌词或按流派对音乐进行分类。它是第一个模仿大脑来解读声音的人造系统，在准确性上能够与人类相媲美。这项研究发表在Neuron杂志上，为研究人脑提供了吸引人的新方法。大数据文摘微信公众号后台回复“音乐”即可获得研究论文哟~ 机器学习系统无处不

07

打个响指让房间灯光秒变撩妹粉，日本技术宅的机器学习助攻项目

前段时间，Twitter主上一位叫imajo的日本小哥就做了这样一个有点浪漫的机器学习项目，打个响指就让房间灯光变成粉色的视频，获得了非常多点赞和转发，广受好评！

04

Machine Learning学习——定义、监督学习和无监督学习

1.Arther Samuel(1959):Machine Learning:Field fo study that gives computers the ability to learn without being explicitly programmed.

04

Science advances：新生儿的言语知觉：大脑对快速和慢速时态信息的编码

言语感知受到听觉处理的制约。虽然婴儿的听觉系统不成熟，语言经验有限，但他们表现出非凡的言语感知能力。为了评估新生儿处理复杂语音线索的能力，我们结合近红外光谱(NIRS)和脑电图(EEG)来测量大脑对不同辅音音节的反应，分别评估脑电生理反应及其代谢相关性，这两种技术的结合有提供精确的空间定位和高时间分辨率的独特优势。

01

给孩子们的AI科普课（速收藏）

对他们来说，AI不是新鲜事。但同时，AI也是新鲜事——大模型为何能进行对话？AI写诗能写到什么份上？AI能从游戏迁移到真实？

02

task8 GAN text-to-image

https://www.tensorflow.org/api_docs/python/tf/layers/batch_normalization https://www.tensorflow.org/programmers_guide/variableshttps://www.tensorflow.org/programmers_guide/variables https://www.tensorflow.org/api_guides/python/reading_data#Multiple_input_pipelines

02

【重磅】DeepMind发布最佳语音神经网络生成模型，与人类差距缩减50%以上

【新智元导读】本文介绍的是WaveNet——一个原始音频波形深度模型。我们展示了，Wavenet能够生成模仿人类的语音，听起来要比现有最好的文本到语音转化系统更自然，将与人类表现的差距缩减了50%以上。在我们的展示中，相同的网络能被用于合成其他的音频信号，比如，音乐。在这里，我们提供了一些样本——自动生成的钢琴曲。会说话的机器让人能与机器对话是人机交互长期以来的一个梦想。近年来，随着深度神经网络的应用（比如，谷歌的语音搜索），计算机理解自然语音的能力取得了革命性的进展。但是，用计算机生成语音仍然大量地

05

图文详解机械键盘轴体，选购机械键盘必读

原文出处：百度经验作为机械键盘的核心组件(轴)，若不特意提及轴体种类，通常都是指Cherry MX机械轴，因为CherryMX轴已经被广泛地认可，Cherry MX机械轴仅仅是作为机械轴的代表，除此之外，还包括凯华轴、Cherry ML机械轴、CherryMY机械轴、ALPS机械轴、台湾白轴（非常罕见）等种类。MX系列机械轴应用在键盘上的主要有4种，通过轴帽颜色可以辨别，分别是青、茶、黑、红、白（市面已很少见），手感相差很大，可以满足不同用户各种需求。手感的区别在三个方面可以感觉道不同，分别是：段

07

感官世界有多大宇宙就有多大

雷锋网授权转载网站: http://www.leiphone.com/ 微信: leiphone-sz 我们人类由非常小的细胞构成，生活在一个非常大的宇宙，但是，我们却不太善于理解现实中或微观或宏观

02

「唯物」戴上VR帽子的耳机究竟有什么不一样？

虚拟现实（简称VR)是一个崭新的，蒸蒸日上的产业。但VR领域的繁荣到目前为止，看起来仍然没能脱离自high，并且还有可能在越high越高。VR设备还在层出不穷和难以商业化，VR耳机又来了，一家名为Coolhear（东方酷音）的公司就在发布会上找来了VR领域各个环节的组成部分，一起来相互取暖。那么下面就来谈一谈这款戴着VR帽子的耳机究竟做了些什么。在发布会上Coolhear的CEO李斌表示，这款耳机一共有两个核心技术，其一是和南大声学所合作研发的主动降噪技术。第二个就是能够配合VR内容使用的3D音效技术

06

Nature子刊：生命的最初几个小时内可快速学习音位辨别—基于fNIRS研究

人类新生儿可以区分音素，但这种能力背后的神经机制尚不清楚。新生儿的大脑可以学会区分自然（前）元音和逆向（后）元音（在子宫中学习不到的）。利用功能近红外光谱，我们检测了出生5小时后随机接触前和后元音 (T1时间点）和在此之后2小时 (T2时间点）再次接触所发生的神经可塑性变化。实验组的新生儿接受了与T1和T2测试相同的刺激训练，与不接受训练的对照组相比，实验组婴儿在T1时前元音与后元音的血流动力学反应潜伏期更短，且在额下回区域差异最大，在T2神经活动差异增加，在颞叶上部和左侧顶叶下部最明显。由此得知，新生儿在出生后的最初几个小时内表现出对自然音素的超快速调整。

02

Chrome浏览器更新至32.0 禁用NPAPI

近日，Google为Chrome浏览器更新至32.0.1700.76，并带来了许多新特性。距Chrome上次更新时间已经过去了一个多月，虽然从外观上并不能察觉到什么变化，但其实从32开始Chrome已经抛弃了NPAPI支持。这一点我们下文再说。

03

PLOS Biology：语言控制的功能连接组

背景：在过去的几年里，已有研究致力于探讨大脑不同区域在人类不同行为中功能相互作用的复杂性。其中，神经影像学研究提出，言语的实现需要大脑区域的协调来理解、规划和将听到的声音和口语生成结合起来。但是，这些研究在很大程度上局限于绘制单独语音元素的神经关联图，以及与语音控制不同成分相关的皮层或皮层下通路（即白质纤维连接）。目前，有关控制言语和语言的脑网络机制仍不清楚。

02

PNAS：发音器特异性感觉运动神经指标对婴儿言语感知的影响

虽然越来越多的人们承认，即使是年幼的婴儿也能检测到听到的和看到的言语之间的对应关系，但普遍的观点是，在婴儿开始牙牙学语或说话之前，与言语产生相关的口腔运动不会影响言语感知。我们调查了多模态言语对说话前婴儿的听觉言语感知的影响程度。我们使用事件相关电位(ERPs)来检测感觉运动对婴儿发音运动的作用如何影响3个月大婴儿的听觉言语感知。在实验1中，在不匹配范式下，两种语音对比(/ba/-/ɗa/；/ɗa/-/ɖa/)存在ERP辨别反应，表明婴儿在听觉上辨别了这两种对比。在实验2中，抑制婴儿自身的舌尖运动仅对/ɗa/-/ɖa/对比的早期ERP辨别反应有破坏性影响。同样的发音抑制对/ba/-/ɗa/和/ɗa/-/ɖa/的感知有截然不同的影响，前者在产生过程中需要不同的发音器(嘴唇和舌头)，后者要求两个音节都需要舌尖运动作为发音的地方。这两种对比的发音差异很好地解释了舌尖抑制对3个月大婴儿的语音对比变化感知的神经反应的显著影响。结果表明，口头运动抑制和言语辨别之间的关系具有特异性，这一结果表明听觉和运动言语表征之间的映射在说话前的婴儿中就已经存在了。

00

语音版deepfake出现：从文本到逼真人声，被模仿者高呼真得可怕

加拿大创业公司 Dessa 近日发布了一项新研究：利用其最新开发的 RealTalk 系统，仅利用文本输入即可生成完美逼近真人的声音。其 demo 中展示了美国著名脱口秀喜剧演员、主持人 Joe Rogan 的声音（Joe Rogan 就是那个让马斯克在节目中嗨了的主持人）。

03

骗人还是文字强！MIT最新研究：DeepFake换脸还不如编辑动动笔

---- 新智元报道编辑：袁榭好困【新智元导读】最近MIT的一项研究显示，费时费力的DeepFake换脸大法甚至还不如单纯的文字假消息能唬人。 DeepFake，自面世以来就被列为了潜在的「坏AI」。不论是著名的「加朵换头色情片」，还是各种用DeepFake变声的银行转账骗局，DeepFake的相关消息似乎都摆脱不了负面背景。不过MIT的最新研究表明，伪造文字信息的破坏力要远高过伪造的图片或视频。这与传播领域的旧观点相反，过往学界认为当同一版本的内容以视频而不是文本形式呈现时，人们会更容易被

04

骗人还是文字强！MIT最新研究：DeepFake换脸还不如编辑动动笔

---- 点击上方↑↑↑“OpenCV学堂”关注我来源：公众号新智元授权【导读】最近MIT的一项研究显示，费时费力的DeepFake换脸大法甚至还不如单纯的文字假消息能唬人。 DeepFake，自面世以来就被列为了潜在的「坏AI」。不论是著名的「加朵换头色情片」，还是各种用DeepFake变声的银行转账骗局，DeepFake的相关消息似乎都摆脱不了负面背景。不过MIT的最新研究表明，伪造文字信息的破坏力要远高过伪造的图片或视频。这与传播领域的旧观点相反，过往学界认为当同一版本的内容以视频而不是文本

05

流媒体音视频参数概念及详解

分辨率是和图像相关的一个重要概念，它是衡量图像细节表现力的技术参数。分辨率高是保证彩色显示器清晰度的重要前提。分辨率是体现屏幕图像的精密度，是指显示器所能显示的点数的多少。通常，“分辨率”被表示成每一个方向上的像素数量，分辨率越高，可显示的点数越多，画面就越精细。

02

技术控：这款家庭机器人是如何实现与人的情感交流的？

Rokid于近日推出首款家庭机器人。该机器人拥有声纹识别技术和远距离声音识别功能，能够辨别家庭成员。同时，产品所具备的深度学习功能，能够帮助Rokid家庭机器人与用户之间进行良好的互动体验，了解家庭成

04

亚马逊AI主任科学家李沐：机器学习简介

本书作者跟广大程序员一样，在开始写作前需要来一杯咖啡。我们跳进车准备出发，Alex掏出他的安卓喊一声“OK Google”唤醒语言助手，Mu操着他的中式英语命令到“去蓝瓶咖啡店”。手机快速识别并显示出命令，同时判断我们需要导航，并调出地图应用，给出数条路线方案，每条方案均有预估的到达时间并自动选择最快的线路。好吧，这是一个虚构的例子，因为我们一般在办公室喝自己的手磨咖啡。但这个例子展示了在短短几秒钟里，我们跟数个机器学习模型进行了交互。如果你从来没有使用过机器学习，你会想，“这不就是编程吗？”或者，“机

06

你说话时的肢体动作，AI仅凭声音就能预测 | CVPR 2019

人在说话的时候，常常伴随着身体动作，不管是像睁大眼睛这样细微的动作，还是像手舞足蹈这样夸张的动作。

04

AI 插手！用文本分析鉴定《红楼梦》《亨利八世》实际作者

导读：《红楼梦》、《亨利八世》都是经典的文学名著，许多历史和研究都暗示这些名著有不止一位作者，但文学界对此众说纷纭无法给出定论。而最近，基于人工智能和数据科学的研究发现，则是从数据分析的维度上，去区分一部作品的具体作者。

01

如何才能够更好地理解运营中的内容概念呢？

1、互联网上随处可见的文字、图片、视频甚至音频都可以称为内容，但更深一步说，其实所有用户感觉到的事物都叫内容。也就是说，内容是指用户可感知到的一切事物，不仅包括用户所看到的普通内容，也包括UI、ICO（图标）、缓冲界面等内容。很多人可能并不明白内容是什么，简单地说，一款产品100%都是由内容构成的。不论产品是电商类的还是社交类的，都完全由文字、UI、图片等组成。

04

科大讯飞李伟：人机交互如何选择合适的「耳朵」

AI 研习社按：人工智能当前正处于爆发阶段，语音交互作为人工智能的重要组成部分正在各行业全面的落地，在人机进行语音交互的过程中，机器需要通过耳朵实现听觉的作用。

02

VRAR概念的定义和要素以及技术定义和应用

是一种通过计算机模拟真实感的图像，声音和其他感觉，从而复制出一个真实或者假想的场景，并且让人觉得身处这个场景之中，还能够与这个场景发生交互。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭