安妮 李林 发自 凹非寺 量子位 出品 | 公众号 QbitAI 昨天AlphaGo再次震惊所有人。 刚刚,这个史上最强围棋AI的两位主要开发者,David Silver和Julian Schritt
【新智元导读】DeepMind首席研究员、AlphaGo项目负责人David Silver和Julian Schrittwieser(AlphaGo Zero论文的第一作者之一)在Reddit回答网友提问,新智元第一时间为你送上。同时,我们再回顾2007年,Silver等人催生了AlphaGo的研究。 Reddit在前天发布了预告,DeepMind的David Silver和Julian Schrittwieser(见头图)会举行一场AMA——“Ask Me Anything”,回答网友提问。 David
选自Reddit 机器之心编译 昨日,DeepMind 在《自然》杂志上发表了一篇论文,正式推出人工智能围棋程序 AlphaGo 的最新版本 AlphaGo Zero。同时,在 DeepMind 发布的官方博客中,DeepMind 强化学习团队负责人、AlphaGo 项目负责人 David Silver 视频介绍了最新的 AlphaGo Zero。今天,David Silver 与团队另一成员 Julian Schrittwieser 代表 AlphaGo 创造者在 Reddit 上回答了读者的一系列问题。
【AlphaGoZero核心技术】深度强化学习专知荟萃 【AlphaGoZero核心技术】深度强化学习专知荟萃 基础入门 进阶文章 Papers Papers for NLP Tutorials 中英文综述 视频教程 代码 博客 领域专家 基础入门 1.Reinforcement learning wiki [https://en.wikipedia.org/wiki/Reinforcement_learning] 2.Deep Reinforcement Learning: Pong from Pixel
5月24日,在新版本AlphaGo首战以1/4子微弱优势战胜中国围棋职业九段棋手柯洁之后,“AlphaGo之父”DeepMind创始人兼CEO Demis Hassabis、AlphaGo团队负责人David Silver在人工智能高峰论坛上详解了AlphaGo的研发并就“AlphaGo意味着什么?”的问题进行了详细解答。 “AlphaGo已经展示出了创造力,也已经可以模仿人类直觉了。在过去一年,我们继续打造AlphaGo,我们想打造完美的AlphaGo,弥补它知识方面的空白。因为在与李世石的比赛中,它
【导读】昨天 Google DeepMind在Nature上发表最新论文,介绍了迄今最强最新的版本AlphaGo Zero,不使用人类先验知识,使用纯强化学习,将价值网络和策略网络整合为一个架构,3天
夏乙 编译整理 量子位 出品 | 公众号 QbitAI ?DeepMind公开了一篇最近投递到AAAI 2018的新论文,这篇论文的主角,依然是这家公司四年前就开始研究的DQN,配角,依然是雅达利(A
在 DeepMind 首席研究科学家、伦敦大学学院计算机科学教授David Silver 看来,游戏是激发创造力的关键,尤其是对AI而言。
【导读】昨天 Google DeepMind在Nature上发表最新论文,介绍了迄今最强最新的版本AlphaGo Zero,不使用人类先验知识,使用纯强化学习,将价值网络和策略网络整合为一个架构,3天训练后就以100比0击败了上一版本的AlphaGo。Alpha Zero的背后核心技术是深度强化学习,为此,专知有幸邀请到叶强博士根据DeepMind AlphaGo的主要研究人员David Silver《深度强化学习》视频公开课进行创作的中文学习笔记,在专知发布推荐给大家! 随着DeepMind公司开发的Al
https://github.com/brylevkirill/notes/blob/master/Reinforcement%20Learning.md Reinforcement Learning is learning to maximize expected sum of future rewards for sequence of actions made by agent in environment with stochastic state unknown to agent and de
👆关注“博文视点Broadview”,获取文末赠书 原文来源:公众号“AI科技评论” 作者 | 陈彩娴;编辑 | 刘冰一 当地时间5月6日,英国皇家学会(英国最高科学学术机构)公布了最新院士与外籍院士(Fellows and Foreign Members)名单,入选科学家包括52名院士、10名外籍院士与1名荣誉院士。 根据英国皇家学会的官方报道,入选院士的研究内容与科学成就多种多样,既有人研究如何检测人类大脑中的新型神经元,针对全球重要传染病的疫苗设计和开发,也有人研究爱因斯坦广义相对论,或者海平面上
【编者按】本文根据ICML 2015第二天David Silver和Arun Nair的演讲整理。David Silver是谷歌DeepMind强化学习团队的主管,Arun Nair来自Deepmind应用团队,演讲的主题是谷歌强化学习体系Gorila,分别从学术研究和实际应用的角度来解析。 Gorila (General Reinforcement Learning Architecture) 在5月份圣地亚哥举办的ICLR(International Conference on Learning R
【编者按】本文根据ICML 2015第二天David Silver和Arun Nair的演讲整理。David Silver是谷歌DeepMind强化学习团队的主管,Arun Nair来自Deepmind应用团队,演讲的主题是谷歌强化学习体系Gorila,分别从学术研究和实际应用的角度来解析。 Gorila (General Reinforcement Learning Architecture) 在5月份圣地亚哥举办的ICLR(International Conference on Learning Rep
AI科技评论按:乌镇围棋峰会第二天,在《AlphaGo研发介绍,AlphaGo意味着什么》主题演讲上,Demis Hassabis+David Silver针对昨天与柯洁鏖战的AlphaGo研发做了公开介绍,其中AlphaGo主程序员David Silver在演讲中讲到AlphaGo研发的关键介绍,AI科技评论根据现场原话整理出下文。 演讲摘要:有了这样强大的策略网络和价值网络,AlphaGo探索棋步的基本的搜索树规模就得以大幅度缩减。前一个版本AlphaGo Lee还是通过“只考虑人类可能走的位置”和“预
对于SD-WAN厂商来说,这将是一个漫长而炎热的夏天,因为竞争激化,思科、VMware和其他公司纷纷加大投入。
Silver Peak今天宣布,目前该公司已经有超过1000的全球客户,现在正在进行的任务是将软件定义的广域网(SD-WANs)建设为一个单独的网络类别。
自从有了强化学习(RL),AI上能星际争霸,下能雅达利称王,让内行人沉醉,让外行人惊奇。
【导读】Google DeepMind在Nature上发表最新论文,介绍了迄今最强最新的版本AlphaGo Zero,不使用人类先验知识,使用纯强化学习,将价值网络和策略网络整合为一个架构,3天训练后就以100比0击败了上一版本的AlphaGo。Alpha Zero的背后核心技术是深度强化学习,为此,专知有幸邀请到叶强博士根据DeepMind AlphaGo的研究人员David Silver《深度强化学习》视频公开课进行创作的中文学习笔记,在专知发布推荐给大家!(关注专知公众号,获取强化学习pdf资料,详情
David Silver 博士是 AlphaGo 的最主要研发人员。众所周知,AlphaGo 是第一个战胜人类顶级围棋高手的计算机围棋程序。AlphaGo 底层核心技术包括深度学习(deep learning)、强化学习(reinforcement learning),和蒙特卡洛搜索树(Monte Carlo tree search)。 在这门强化学习的课程中,Silver 博士从简介、马尔科夫决策过程(Markov Decision Processes)、免模型预测(Model-free Predict
三个深度策略网络 (Policy Networks), 一个深度估值网络(Value Network):
https://github.com/wwxFromTju/awesome-reinforcement-learning-zh
解读柯洁大战AlphaGo,当然离不开围棋界最懂机器学习的高手。 本次,我们很荣幸邀请到围棋队的电脑专家——余平大师,来为我们讲解第一盘人机大战。 首先,当然从围棋的角度出发,余平大师认为,柯洁选AlphaGo的“点”三三是非常非常错误的。 “点”完三三,然后一“爬”的时候,以前胡耀宇写过一个“扳”,然后“扳”了“退”,所以说不好;事实上今天AlphaGo一“飞”,其实几十年就已证明过“飞”比“扳”要便宜一点点。 其次,他还认为柯洁没有抓住第37手的机会,非常可惜。 柯洁在36手AlphaGo“挤”他
【新智元导读】 根据新智元此前报道, 新一代AlphaGo Zero以100:0打败了AlphaGo。AlphaGo Zero能获得如此战绩,完全通过自学,无需任何人类知识的输入。这是机器崛起,迈向超人类能力的重要一步。那台曾经打败人类顶尖棋手、扬名天下的AlphaGo变得更聪明了。 根据新智元此前报道, 新一代AlphaGo Zero以100:0打败了AlphaGo。AlphaGoZero能获得如此战绩,完全通过自学,无需任何人类知识的输入。这是机器崛起,迈向超人类能力的重要一步。 AlphaGo Zer
大家好,我是大鹅,本次演讲会介绍强化学习RL的基础知识,基本方法,以及如何推导到DQN,和关于DeepMind的Playing Atari with Deep Reinforcement Learning(DQN学习打砖块游戏)这篇论文的一些理解,后续改进方向,还有一些具体实现。
AAAI(Association for the Advancement of Artificial Intelligence)是国际人工智能领域最权威的学术组织,Fellow 是该学会给予会员的最高荣誉,仅颁给对人工智能做出「非同寻常的卓越贡献者」,而且评价时间以十年计。由于其评判极严格,历届 AAAI Fellow 入选者均为人工智能领域公认的著名学者,每年严格限制不超过 10 位(通常是 5 位)入选,因此被誉为国际人工智能领域的名人堂。
【新智元发自中国乌镇】乌镇人工智能峰会进入第二天,哈萨比斯、David Silver和Jeff Dean等谷歌高管纷纷发表演讲。他们对AlphaGo 2.0的新技术进行了详细解读。几位“谷歌人”纷纷提到一个关键词——TPU。Jeff Dean 甚至直接放出了与GPU的性能对比图。从昨天的赛后采访到今天的主旨演讲,哈萨比斯等人一直在强调TPU对新版本的AlphaGo的巨大提升。看来,TPU将会成为接下来一段时间内谷歌的战略重点,GPU要小心了。本文带来哈萨比斯、David Silver现场演讲报道(附PPT)
【新智元导读】谷歌大脑的 Denny Britz 在他的个人博客上发表了一篇强化学习经验总结,包括好用的教程和教材,最关键的,是他经试着用 Python、OpenAI Gym、Tensorflow 写了大部分标准强化学习算法,并且按章节列出,还提供了练习和答案,是为强化学习实践的好资料。 为什么要学习强化学习? 强化学习(Reinforcement Learning,RL)是我最感兴趣的领域之一。过去几年里强化学习取得的一些成果得到了很多关注,例如掌握围棋、从原始像素学会玩 Atari 游戏,但强化学习还可
注意下面很多链接需要科学上网,无奈国情如此 1. Google相关的消息: 1.1 TF发布1.5正式版,跟之前提到的RC差不多,主要是增加了eager和lite,升级了CUDA和cuDNN的支持版本 链接:https://github.com/tensorflow/tensorflow/releases/tag/v1.5.0 1.2 Google和UCSF/Stanford/Chicago合作发的一篇用深度学习从EHR预测医院事件(病亡,住院等)论文。不太懂医学上应用,不过看到不光预测准确率提高了,而且在
本文为 AI 研习社编译的技术博客,原标题 Perception Projects from the Self-Driving Car Nanodegree Program,作者为 David Silver。 翻译 | 余杭 校对 | 王祎
在机器学习中,我们经常会分类为有监督学习和无监督学习,但是尝尝会忽略一个重要的分支,强化学习。有监督学习和无监督学习非常好去区分,学习的目标,有无标签等都是区分标准。如果说监督学习的目标是预测,那么强化学习就是决策,它通过对周围的环境不断的更新状态,给出奖励或者惩罚的措施,来不断调整并给出新的策略。简单来说,就像小时候你在不该吃零食的时间偷吃了零食,你妈妈知道了会对你做出惩罚,那么下一次就不会犯同样的错误,如果遵守规则,那你妈妈兴许会给你一些奖励,最终的目标都是希望你在该吃饭的时候吃饭,该吃零食的时候吃零食,而不是在不合适的时间吃零食。同样,曾经风靡过一段时间的Flappy bird,很多玩家在短时间内达到了高分,是怎么做到的呢?除了非常厉害的玩家是真的自己手动玩的高分,其实很多高分是通过我们用强化学习的方法来训练一个模型,让小鸟自己学习如何不碰到障碍物一直往前飞,获得最高分。此外,大家熟知的Alpha Go,其实也是强化学习训练的模型,不过是深度强化学习。
大神David Silver(AlphoGo architecture,难道没去NIPS?)今天往arxiv上扔了篇文章,Mastering Chess and Shogi by Self-Play
点击上方“专知”关注获取更多AI知识! 【导读】Google DeepMind在Nature上发表最新论文,介绍了迄今最强最新的版本AlphaGo Zero,不使用人类先验知识,使用纯强化学习,将价值网络和策略网络整合为一个架构,3天训练后就以100比0击败了上一版本的AlphaGo。Alpha Zero的背后核心技术是深度强化学习,为此,专知有幸邀请到叶强博士根据DeepMind AlphaGo的研究人员David Silver《深度强化学习》视频公开课进行创作的中文学习笔记,在专知发布推荐给大家!(关注
本文介绍了如何基于强化学习对话系统框架,实现一个可学习的对话管理模块,该模块可以自动生成对话过程中的行为序列。具体来说,利用了Deep Q-Network(DQN)作为对话管理模块的核心,通过经验回放和双DQN策略,该模块可以学习到对话过程中的最优行为序列,并自动生成回答。实验结果表明,该模块可以大大提高对话系统的自动回答率和任务完成率,同时降低了人工标注的工作量。
【导读】11月10日,黄士杰应台湾人工智能年会之邀来台演讲,演讲主题是「AlphaGo——深度学习与强化学习的胜利」,也是他首次公开演讲。不久前,在DeepMind发表了《Mastering the game of Go without humanknowledge》的最新论文后,黄士杰曾在Facebook写下:AlphaGo Zero是完全脱离人类知识的AlphaGo版本。在演讲上,他强调,DeepMind的目标是要做出一个通用人工智能,也就是强人工智能,但他也认为,对DeepMind来说,强人工智能还是
本文介绍了强化学习的基本概念,以及使用Python进行强化学习实践的方法和相关库。作者从强化学习的经典任务——Cartpole问题开始,介绍了如何使用不同的强化学习库进行实践。文章还介绍了强化学习的一些资源,包括课程、库和论文等。
选自Vicarious 机器之心编译 近日,人工智能初创公司 Vicarious 在官网了发表了一篇名为《General Game Playing with Schema Networks》的文章,提
1. 第一当然是NIPS啦(注意看上一期NIPS在Facebook上的视频)。NIPS开完,各种资料分析就出来啦,对我们这种没有机会去现场的人来说是个福音。 test-of-time award得主A
【新智元导读】ICML2016今天进入课程讲座环节,DeepMind的资深科学家、AlphaGo作者之一的David Silver作了题为《深度增强学习》的报告。新智元带来本次报告的全部PPT。与前几
AI科技评论获悉,ACM向Scott Aaronson授予2020年度ACM计算奖,以表彰其对量子计算的开创性贡献。Aaronson是德克萨斯大学奥斯汀分校计算机科学系David J. Bruton Jr .百年教授。
选自arXiv 作者:Zhongwen Xu、Hado van Hasselt、David Silver 机器之心编译 参与:Pedro、路 近日,来自 DeepMind 的研究者 David Silver 等人发布论文,提出一种基于梯度的元学习算法,可以在线调整元参数,使得回报既能适应具体问题,又能随着时间动态调整以适应不断变化的学习环境。 强化学习(RL)的核心目标是优化智能体的回报(累积奖励)。一般通过预测和控制相结合的方法来实现这一目标。预测的子任务是估计价值函数,即在任何给定状态下的预期回报。理
【导读】Christine Doig是Anaconda公司的高级数据科学家。没错Anaconda就是那个著名的Python科学计算与发行管理软件。Christine Doig从最基本的强化学习概念开始
AI科技评论消息,经过四个多小时的对弈,柯洁以四分之一子之差败给了AlphaGo。 比赛后,曾参与训练AlphaGo的棋手樊麾,与围棋九段常昊一同回顾了整个对弈过程。柯洁也与Deepmind创始人Demis Hassabis,以及AlphaGo的主程序员David Silver一同接受了媒体采访,谈及对比赛的感想。 AlphaGo注重整体局势的发展 樊麾提到,在经过年初Master的60局比赛后,很多棋手也在尝试用点三三这种下法。而柯洁也模仿了这种开局。 常昊在分析中表示,对整个棋局印象最深的,是白棋在
机器之心原创 作者:Duke Lee 参与:马亚雄、吴攀、吴沁桐、Arac Wu 强化学习在与之相关的研究者中变得越来越流行,尤其是在 DeepMind 被 Google 收购以及 DeepMind 团队在之后的 AlphaGo 上大获成功之后。在本文中,我要回顾一下 David Silver 的演讲。David Silver 目前任职于 Google DeepMind 团队。他的演讲可以帮助我们获得对强化学习(RL)和深度强化学习(Deep RL)的基本理解,这不是一件特别难的事。 David Silve
6月19日(美国时间)在纽约举行的国际机器学习大会(ICML)上,来自谷歌、Facebook以及顶尖研究学府的科学家们通过论文和讲座,分享了最尖端的机器学习研究成果。其中,谷歌DeepMind科学家D
今天读到朋友圈评论:“中国最充满前途的年轻人们都聚在被称为“创业导师”的中年男人们周围,一起彻夜不休地燃烧生命,只为了在一轮又一轮如何送外卖、洗车、搭讪陌生人、借高利贷、联接电饭煲和冰箱的挑战赛中搏出更好的名次...” 而大洋对岸那边很多巨头公司的创始人,他们骨子里并不是商人,而是geek。热衷于创造新奇的事物,热衷于解决难题,是geek的天性。科技,在这一刻,非常残忍地拉开了国与国之间的差距。 Judgement Day Bon Jovi - New Jersey 今天将迎来了人机大
领取专属 10元无门槛券
手把手带您无忧上云