解读“唇语”一般都是在电视剧里出现的特殊人才所具备的技能,当然读“唇语”也被广泛应用于不便传小纸条的上课聊天以及考试作弊的场景下。不过这项特殊又神秘的技能被牛津大学研究院认为可以利用在人工智能技术上。
这种情况不禁让人想起 2016 年引起热议的 LipNet 论文(牛津大学人工智能实验室、谷歌 DeepMind 和加拿大高等研究院 (CIFAR) 合作的研究),这篇论文同样与 ICLR 2017 失之交臂。此外,这两篇论文有三位共同作者 Brendan Shillingford、Yannis Assael 和 Nando de Freitas,两篇论文的一作都是 Brendan Shillingford 和 Yannis Assael,两篇论文的主题都是唇读。
最近,Meta提出了一种视听版BERT,不仅能读唇语,还能将识别错误率降低75%。
2002年世界杯上,法国球员齐达内到底被对手的话激怒,狠狠地拿头撞击对方胸口被逐出赛场,他的对手到底说了什么呢?——AI也许可以给出答案。
对于数百万失聪者来说,唇读可以提供一个窗口,可以跟上对话。但这种做法很难,结果往往不准确。现在,DeepMind研究人员报告一种新的AI程序,该程序的性能优于专业的唇读者和迄今为止最好的AI,其错误率仅为之前最佳算法的一半。如果完善并集成到智能设备中,这种方法可以让每个人都懂唇读。
有一个人类的本能行为,或许我们很难察觉:当因为隔得太远或者环境噪音太大而听不清对方说话的时候,你会下意识地观察对方的唇部动作,来判断这个人到底在讲什么。
无声的世界里,你只要动动嘴唇,就可以被识别出说了什么、甚至被转化为语音,是不是很智能便利、同时又颇为惊悚? 今年12月,第四届世界互联网大会,搜狗发布唇语识别技术,也系业内首次公开演示。其背后的商业逻辑是什么?这项技术发展到什么地步了? 一、为什么要做唇语识别 搜狗语音交互技术中心负责人陈伟首先回顾了搜狗在语音交互方面的发展历史——早期搜狗于移动时代主要做两件事——输入法与搜索。后来进入智能时代,设备由手机变为IOT设备,人与智能硬件之间的连接也变为搜狗知音引擎这样的自然交互引擎,而硬件、信息,或更深度
人工智能科幻电影里描述的AI是不是真的是远离现实呢?自从工业时代以来,人和机器的关系一直是充满争议并复杂的,当机器越来越先进和独立,它们是否会毁灭人类自身呢?
论文 1:PyTorch: An Imperative Style, High-Performance Deep Learning Library
2016年,谷歌和牛津大学的研究人员详细介绍了一个系统,该系统能够以46.8%的准确率,标注视频片段,实测超过了专业唇读器12.4%的准确率。但是,即使是最先进的系统也很难克服嘴唇动作的模糊性,基于此,它们的表现根本无法超越基于音频的语音识别。
【导读】唇语识别系统使用机器视觉技术,从图像中连续识别出人脸,判断其中正在说话的人,提取此人连续的口型变化特征,随即将连续变化的特征输入到唇语识别模型中,识别出讲话人口型对应的发音,随后根据识别出的发音,计算出可能性最大的自然语言语句。
2016年,全球人工智能技术和产业发展迅速,公众对人工智能的关注持续上升。在对该领域的重要事件进行分析和比较的基础上,选取了2016年该领域十个最具有影响力的事件。 1 美国等政府发布人工智能研发战略
不可思议! 国家突然宣布:举全国之力,在2030年一定要抢占人工智能全球制高点! 而为了实现这个目标,党中央,国务院正式下文:即日起,从小学教育,中学科目,到大学院校,通通逐步新增人工智能课程,建设全
【导读】近日,大数据科学家Volodymyr Fedak发布一篇博客,总结了2017年深度学习的发展:深度学习在文本和语音领域的应用。深度学习从发展伊始就在图像领域取得了越来越好的效果,当今,图像领域
编译 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 人们通过聆听和观察说话者的嘴唇动作来感知言语。 那么,AI 也可以吗? 事实上,研究表明视觉线索在语言学习中起着关键的作用。相比之下,人工智能语言识别系统主要是建立在音频上。而且需要大量数据来训练,通常需要数万小时的记录。 为了研究视觉效果,尤其是嘴部动作的镜头,是否可以提高语音识别系统的性能。Meta 的研究人员开发了 Audio-Visual Hidden Unit BERT (AV-HuBERT),这是一个通过观看学习和听人们说
事实上,研究表明视觉线索在语言学习中起着关键的作用。相比之下,人工智能语言识别系统主要是建立在音频上。而且需要大量数据来训练,通常需要数万小时的记录。
好久没有推荐有趣的算法了,今天 Jack 再带大家逛逛「AI 乐园」,看看最近新出了哪些新奇好玩的 AI 算法。
This week’s newsletter includes: a neural network for lip reading, a drone to defend your home, record breaking deep learning-powered JPEG compression, a style transfer implementation in TensorFlow, a self-driving car simulator in GTA V and more! 神经网络阅读唇语,
(1) 内容以科普为主,技术细节为辅。因为本专栏是为了让更多的人能够看懂,完成对新奇技术的了解,我不会在这里讲述过多技术细节,细节可以通过其他专栏获得。
在刚刚过去的第四届乌镇互联网大会上,搜狗展台凭借着机器翻译、搜狗明医、搜狗大律师、智能问答、唇语识别等人工智能技术、产品受到参会者的关注,其中最吸引眼球莫过于唇语识别了。 所谓唇语识别是通过机器视觉,不用听声音,仅靠识别说话人的唇部动作,就能解读说话者所说的内容。 了解人类起源与未来,搜索:来自外星人的讯息 搜狗语音交互中心技术总监陈伟 与语音识别不同,唇语识别是一项基于机器视觉与自然语言处理于一体的技术,因此难度也比语音识别大的多。 搜狗语音交互中心技术总监陈伟向我们介绍了唇语识别背后的技术逻辑。唇语
瑞士Idiap研究所的科学家,用GAN给300多段视频换脸,然后测试了两套先进的人脸识别系统:一个基于VGG,一个基于Facenet。
这就是来自印度信息技术研究所(IIIT)的黑科技——一个名为Lip2Wav的AI程序。
唐旭 发自 RUC 量子位 报道 | 公众号 QbitAI 从计算机视觉到自然语言处理,在过去的几年里,深度学习技术被应用到了数以百计的实际问题中。诸多案例也已经证明,深度学习能让工作比之前做得更好。
机器之心原创 作者:高琳 编辑:藤子 再次谈起公司发展的下一步时,冯一村难掩兴奋。 作为海云数据创始人兼 CEO,不仅是因为其自主研发的唇语识别技术,提高英文识别准确率,更重要的是,冯一村找到了唇语识别的变现之道。 「唇语识别能帮助聋哑人、老人交流,裁定体育赛事语言暴力。在公安领域,也具有颠覆意义。」冯一村分析。因为大量视频只有图像,没有声音,如能识别视频中犯罪嫌疑人的讲话内容,将会提高刑侦效率。 正因如此,冯一村说,海云数据未来将不遗余力地投入唇语识别的研究。 成立于 2013 年的海云数据,以数据可视化
说起英语口语,真的与所处的地域、接触过的老师严重相关。想想自己从小被教”school“读 斯酷~,就…一言难尽。直到大学的后半段,才开始艰难的摸索自己的口语问题。一点小心得,记录与此。放一位励志大爷,共勉。
数据猿导读 3月29日,亚洲大数据可视分析峰会在重庆两江新区正式落幕。在此次会上,海云数据正式发布了应用于大数据可视化分析领域的唇语技术,该技术将进一步解决公安行业指挥决策、快速破案的需求,助力平安城
选自arXiv 机器之心编译 参与:路雪、李亚洲 结合语音合成模型、视频生成模型等,本论文研究了如何使用原始文本生成人读随机文本的虚拟视频,且口型完全对照,更加自然逼真。 目前存在大量关于使用机器学习方法生成图像的研究(Isola et al.,2016)。同样,语音合成方面也有显著进展(Sotelo et al.,2017)。不过,将两种模式同时建模的研究并不多。本论文展示了结合多个近期开发的模型生成人读随机文本的虚拟视频。我们的模型可在人说话的任意近景(close shot)视频集合(带对应的转录文本
在两个月前,中国乌镇围棋峰会在浙江桐乡乌镇热火朝天的举行。5场比赛最受关注的毫无疑问要数AlphaGo与世界排名第一的柯洁的三番棋对弈,可以说是人类顶尖棋手与人工智能程序的终极对抗。2016年,Alp
在数据处理和文件归档方面,机器的表现已经超过人类,如今机器还具备了唇语识别能力。 据英国《每日邮报》报道,英国一个研究团队开发了一款唇语阅读计算机程序,其能力甚至超过了人类专家。这款名为LipNet的软件由牛津大学开发,其唇语识别准确率最高达到了93.4%,经验丰富的唇语阅读者的准确率约为52%。 LipNet利用神经网络映射人类口腔运动,与语库内容一一匹配。在训练阶段,这款人工智能软件会通过视频脚本学习人发出的陌生指令,指令中带有含义模糊的短语,例如“请将蓝色设为四”。LipNet通过分解视频帧将人的口腔
未来的人类如何与机器人交流?我们既需要机器人模仿人类的语气、表情、动作,同样也需要机器人能理解我们。
这套系统的训练材料包括约5000小时、6个不同的电视节目,如Newslight,BBC Breakfast 和Question Time。总体而言,视频包含了118,000个句子。 牛津大学和DeepMind的研究人员用2010年1月至2015年12月播出的节目训练了这套系统,并用2016年3月至9月的节目来做测试。 这里是一段没有字幕的剪辑↓↓ 同样一段剪辑,但是人工智能系统已经给出了字幕↓↓ ◆ ◆ ◆ 人工智能制胜之道 对数据集中随机选择的200个片段,在唇语解读这件事上,人工智能完胜人类专家。 在
机器之心原创 作者:高静宜 腾讯优图实验室成功研发光线活体技术,通过闪光模拟实现多重随机信息的编码和解码,使方法建立在密码学的坚实基础之上,是目前已知安全级别最高的技术之一。 极光守卫 Aurora Guard,这个名字听起来好似是某部好莱坞大片中惩恶扬善的超级英雄,或是科幻小说里拯救地球的未来战士。他一出场就自带舞台效果,眼里有星辰大海,身后有万丈光芒,铜墙铁骨坐镇一方,一身孤勇足以抵御八方来袭。 不过事实上,这个酷炫名字的背后并非一个有血有肉的「守护者」,而是腾讯优图实验室研发的一项新技术——光线活体,
一分钟AI 英伟达自动驾驶汽车AI超算Xavier新消息 已经开始线上生产 腾讯领投人工智能项目ObEN宣布将与Qtum量子链共建区块链实验室 CB Insights发布AI创业公司100榜单 ,7家中国公司上榜(旷视科技、出门问问、今日头条、英语流利说、优必选、商汤科技以及寒武纪),两家二次登榜(出门问问和优必选) 北京首次高考英语听力机考启用人脸识别系统,加强考生身份核验 旧金山动物收容所安保机器人驱赶流浪汉已被解雇,该收容所被人们破坏了两次 PitchBook:2017年,美国人工智能和机器学习行
编者按:本周TensorFlow 1.0 正式发布;南大教授周志华当选AAAI 2019 程序主席,华人学者第一人; 雷锋网与MXNet作者李沐畅谈两小时;LipNet与ICLR评委互怼始末,谷歌工程师怼上Yann LeCun,AI科技评论帮你梳理最近学术界工业界“互怼”那些事儿。 TensorFlow 1.0 正式发布 本周,谷歌在山景城举办了第一届 TensorFlow 开发者峰会。作为大会的一部分,TensorFlow 1.0 的正式版本被发布出来。一起来看看它都有哪些新特性:
【新智元导读】机器学习&深度学习盛会 ICLR 2017 落下帷幕。本届会议都有哪些亮点?体现了哪些技术变化及趋势?对整个 AI 业界有什么影响?新智元为你带来最全面的总结。 为期三天的深度学习盛会
数据猿导读 随着各行业数据不断积累,人们已经意识到在海量数据中有超过80%的数据静待处理,超过90%的数据价值并未被挖掘。海云数据创始人兼CEO冯一村告诉数据猿记者,究其原因是因为市场上诸多企业由于自
通知:这篇推文有14篇论文速递信息,涉及目标检测、图像分割、显著性目标检测、人脸识别和GAN等方向 最近有些忙,论文速递频率快下降至两天一更了,希望大家可以体谅。 前文回顾 [计算机视觉] 入门学习资料 [计算机视觉论文速递] 2018-03-14 [计算机视觉论文速递] 2018-03-11 目标检测 [1]《Illumination-aware Faster R-CNN for Robust Multispectral Pedestrian Detection》 Abstract:对于行人检测来
雷锋网 AI 研习社按:伴随着近几年的机器学习的热潮,自然语言处理成为了目前炙手可热的研究方向,同时也是 Google、Microsoft、Facebook、Baidu、Alibaba 等各大公司投入巨额资金和高端人力努力争夺的下一个互联网流量入口(智能助手、智能音箱等)。
选自Statsbot 作者:Eduard Tyantov 机器之心编译 2017 年只剩不到十天,随着 NIPS 等重要会议的结束,是时候对这一年深度学习领域的重要研究与进展进行总结了。来自机器学习创
8月底,2019年中国国际智能产业博览会在山城重庆闭幕。与往年一样,今年的智博会依旧汇集了多领域最新的技术和各大前沿公司的加盟。在今年智博会上,智能制造、智能技术与产品、智能化应用、智慧生活等六个展区,充分展示人工智能、大数据应用、云计算、5G、区块链等为核心的前沿技术与产品。
本文介绍了近日在浙江乌镇举办的2017年世界互联网大会上的各种“黑科技”,包括网易有道翻译蛋、人脸识别技术、智能送快递、AI辅助诊疗、高端鞋履定制等技术。这些技术正在逐步改变我们的生活,让我们的生活更加便捷和智能。
智能核心是对认知能力的升级革命,从感知、认知到决策执行,目前基础理论层、技术层的发展已经达到认知层面的建模与分析,应用层则体现为利用智能技术解决各种多模态目标识别的速度和精度,本文整理了目前市场上智能识别领域的典型应用进展及部分厂商。
如果把技术与业务经验的投资周期和成本暂时放在一边,那么至少有两股势力可以成为海云数据的潜在竞争对手:一是传统公共安全领域的方案商,二是阿里、腾讯等为代表的BAT巨头。
本文介绍了人脸识别技术,特别是光线活体技术,并探讨了这项技术的实现原理和应用场景。光线活体技术通过屏幕发射不同颜色和强度的光线,再通过摄像头接收反射回来的光线,利用算法和卷积神经网络从包含变化光线信号的视频中,分析并推导活体判断所需的人脸3D和质感信息。这项技术在保障用户隐私的同时,提供了更便捷、更智能的验证方式,并已在金融、安防等领域得到广泛应用。
每吸一口母乳,都有定量记录。在人工智能技术的帮助下,只需要一个App,就可以很便捷的监测婴儿的母乳摄入量。
作者:Sandra Upson Executive editor of Backchannel @ Conde Nast, formerly of Medium 编译:徐思彦 腾讯研究院研究员 刘 璐 腾讯研究院助理研究员 虽然语音识别、读唇和图像识别技术已经取得了显著的成就,但这并不意味着它们是一种伟大的、全能的人工智能的基石。对人工智能的部署主要有两个方向:一是利用计算机强大的运算性能对大量数据进行分析,从无限的方案中帮人们选出最
生成对抗网络(GAN)是训练模型的新思想,生成器和鉴别器相互对抗以提高生成质量。最近,GAN在图像生成方面取得了惊人的成果,并在此基础上迸发了大量新的思想,技术和应用。虽然只有少数成功的案例,但GAN在文本和语音领域具有很大的潜力,以克服传统方法的局限性。
作者:胡祥杰 【新智元导读】腾讯优图实验室已经成功研发并推向使用的一项人脸识别技术:光线活体。这项独创技术被命名为Aurora Guard(极光守卫),通过闪光模拟实现多重随机信息的编码和解码,使方法建立在密码学的坚实基础之上,是目前已知安全级别最高的技术之一。目前,光线活体识别在使用中正常通过率是98%以上。 离“刷脸时代”更近一步 随着“微信身份证”开始试点,我们离“刷脸时代”又近了一步。 新智元11月27日在深圳北站和广州南站体验到,这两个高铁站已经开始采用“人脸验票”技术,乘客手持身份证只需“刷脸
本文以商品交易数据追踪为例,介绍了适合NodeJS全栈入门区块链开发的技术方案:Ethereum+Truffle+Electron+Metamask,这篇文章偏科普性,不涉及到具体代码。 作为《区块链全栈开发系列》的开篇吧。 ---- 先看下去年的天猫双十一战报,交易额达1207亿。不知今年能达到多少? 交易额虽然惊人,但是双十一也存在一些黑暗面,通过搜索引擎简单搜索,我们可以看到返回的内容,如下示例: 每年双十一都会搞得轰轰烈烈,一年比一年火爆,火爆背后有多少消费者买到的商品真的是实惠的吗?
领取专属 10元无门槛券
手把手带您无忧上云