清华博士解读 AlphaGo 战胜李世石背后的黑科技

文章来源：企鹅号 - CSDN

受访者 | 肖智清

采访者 | 伍杏玲

出品 | CSDN（ID：CSDNnews）

强化学习是机器学习的一个重要分支，主要用来解决连续决策的问题。2016年3月，人工智能界发生一件里程碑事件——AlphaGo 战胜李世石，其核心技术的深度强化学习引起开发者的关注和研究。

强化学习是怎样的一项技术？又该如何学习呢？

有一位清华博士，肖智清，为了帮助开发者更好地学习AI，紧跟技术潮流，撰写配套TensorFlow 2代码的强化学习教程书《强化学习：原理与Python实现》。下面一起来看看这背后的故事。

清华学霸炼成记

肖智清的履历看起来便是那位“别人家的孩子”：肖智清在北京邮电大学本科阶段，专业成绩排名年纪第一，并成为当时唯一同时获得北京市大学生高等数学竞赛（当时还没有全国高数竞赛）、全国部分地区大学物理竞赛、全国大学生英语竞赛、北京市电子设计竞赛四大竞赛的一等奖的学生。后来以学分绩专业排名第一的成绩推研清华大学信息学院攻读博士学位。

在博士期间发表SCI/EI检索论文十余篇，其中包括在IEEE Transactions on Information Theory(T-IT)发表第一作者论文，成为清华大学近年来首个在T-IT上以第一作者发表论文并在毕业前见刊的博士研究生。

同时，肖智清还是IEEE T-IT、IEEE T-Computers、IEEE T-Communications等期刊和会议的审稿人。

强化学习应用到真实环境有哪些优势？

谈到强化学习应用的问题，肖智清表示，强化学习能用同一套代码并搭配同一套参数完成不同的任务，具有一定的普适性。

比如，AlphaGo的最新改进版算法AlphaZero，它可以用同一套代码搭配同一套参数，学会如何下围棋、如何下国际象棋、如何下日本将棋，并且做的比其他AI都更好。

再例如，深度强化学习算法DQN可以用同一套代码搭配同一套参数玩各种不同的游戏，比如吃豆人、打飞机等等。这两个案例在他写的书里都有详细的介绍和配套代码，可以了解一下它们是如何用同一套代码搭配相同的参数来求解各种各样不同的问题的。

强化学习是实现强人工智能的希望？

有人认为强化学习是实现强人工智能的希望，对此，肖智清表示，强化学习可以用同一套算法搭配同一套参数解决多种不同的问题，具有普适性。

同时我们也要意识到还有其他算法也有普适性，比如自动机器学习和元学习。它们都是强人工智能的希望。说它们是强人工智能的希望，是相对于其他算法而言的，这是一种矮个里挑高个的说法，而不是说用这样的技术就最终一定能实现强人工智能。

强化学习的未来

谈及强化学习的未来研究前沿和演进方向，肖智清表示，在研究方面，强化学习可以和元学习结合，也就是目前常说的强化元学习，使得强化学习能够用较少的资源学得各种各样复杂问题的解决方法。

肖智清戏称：做一个不负责任的预计，强化元学习至少还有100篇顶会文章可以发。另外，多智能体强化学习、随机决策时间的强化学习依然是可以研究的内容。

在工程方面，将自动机器学习和强化学习结合，开发类似于Auto-sklearn的强化学习系统，有可能根本性改变强化学习的生态。

在落地应用方面，强化学习可以和终身学习结合，使得人工智能系统能够在一个比较长的时间跨度内适应不断变化的环境，长期服务于真实世界的场景。

人人编程时代，AI开发者何去何从？

现在人工智能课程已纳入中小学的课程中，很多人相信未来编程将会和英语一样，成为学生必修课，全民编程时代很快来临，一些AI专业的学生难免对职业未来担忧。

对此，肖智清表示，程序员和其他劳动者并没有本质区别，简单的编程技术并不比砖瓦工人的砌砖技术或是月嫂的育儿技术更困难，本来就不应该比它们更值钱。

当一个技术不断普及、门槛越来越低的时候，劳动报酬自然就会回归到和无差别劳动时间吻合的水平。

随着自动机器学习技术的发展和应用，需要的调包侠、调参侠越来越少，想把自己的调包服务、调参服务卖出去自然就会越来越困难。

他强调，一个技术或产业越来越重要或是不可或缺，并不代表对应的岗位会增加、薪资会提高。就比如英语的例子，英语对当今社会越来越重要，并不代表英语专业同学的就业前景越来越好。同样的，人工智能越来越重要，并不代表着人工智能的岗位会越来越多、薪水越来越高。

但与上述相反的是，近年来有一些企业高新聘用AI工程师，肖智清表示，稀缺资源需要花大代价才能获得。

校招生拿年薪百万Offer早已不是新鲜事。当肖智清在校时，常听说有研究生甚至本科生拿到了百万Offer，近年也常听说有200多万的校招Offer。

他认为薪水是体现公司对人才重视程度的最直接度量。一个公司给的薪水越高，那么它就越重视人才。无论对于学生还是对于职场人士，如果想争取高薪，都要努力成为稀缺的人才。

他以强化学习为例，如果只是了解几个常见强化学习算法，那花几天时间看看博客文章就可以。如果能对整个强化学习研究的理论有全面扎实的了解，那就有一定的稀缺性。

如果技术者能始终走在研究前沿并稳定输出顶会论文，那就是真正稀缺的业界大咖。如果你想拿高薪，那就要让自己成为大咖。

建议IT专业学生：用好搜索引擎

谈及对于刚步入大学的学生，有哪些编程习惯和编程思维越早掌握越好？

肖智清表示，最重要的一点是用好搜索引擎。遇到问题请先上网搜索下，无论是编程遇到Bug，还是不理解某个概念，还是想得到资料或经验，都请先试图上网搜索下。有人会直接把问题贴到各种微信群、QQ群或是其他社群里，结果往往是各种吹水，浪费时间，还没有收获，最后还是得自己重新用搜索引擎搜索才解决。

如果确实有编程问题无法通过搜索解决，这时候就要用到另外一个大杀器“最小可复现样例”，英文叫做Minimal Working Example，缩写是MWE。具体而言，遇到程序报错或是行为异常时，可以试图简化程序，不断删除次要逻辑，最终用最少的代码复现出错误或异常行为。在绝大多数的情况下，最终形成的MWE不会超过20行。在制作MWE的过程中，你很可能会自行发现程序中的错误。如果真的制作出MWE并且还没有找到解决方案，那么你带着MWE去提问，获得满意回答的概率也会大大增加。

建议开发者：保持激情，不断学习

在肖智清的职场经历中，他认为作为一名开发者，最关键的一点是要保持激情，不断学习。技术更新换代非常快，只有激情才能让我们不断学习、保持在最前沿。

还是以强化学习为例，深度强化学习仅仅是最近几年才有的事情，强化学习在短短几年之间已经发生了翻天覆地的变化，编程工具也在快速演进中。在2019年，强化元学习已经成为研究新热点，TensorFlow 2已经成为风头正劲的工具。这些东西在他刚入职场的时候都是不存在的。

开发者如果没有不断学习，就会被淘汰。

写一本全面介绍古典算法和现代算法的强化学习书

2016年，肖智清从清华大学获得博士学位，随后进入一家国际投行从事研发工作。开始撰写AI教程书，目前已出版有PyTorch 1纸质教程书《神经网络与PyTorch实战》和配套TensorFlow 2代码的强化学习教程书《强化学习：原理与Python实现》。

为何开始撰写《强化学习：原理与Python实现》？

Google的AlphaGo激发了很多人学习强化学习的兴趣。但是，目前在全球范围内，能够完整地将古典的非深度强化学习和前沿的深度强化学习算法全面阐述的强化学习教程可以说是几乎没有。有的教程可能侧重于非深度强化学习算法，然后只是简单地增加了两三个基础的深度强化学习算法，无法使学习者深入了解深度强化学习算法；另外有一些教程则侧重深度强化学习算法，但是由于没有系统地介绍古典知识，就没有办法全面剖析那些深度强化学习算法的设计思路和收敛性。

实际上古典算法和深度强化学习算法有非常直接的关系，前沿算法的很多改进思想在古典算法中已经有非常类似的研究。

所以肖智清就想写一本能够全面介绍古典算法和现代算法的强化学习书籍，使得学习者能够将它们融会贯通。这本书的亮点之一是它逐章配套代码，特别是深度强化学习部分的配套代码是用TensorFlow 2写成的。

这本书的电子版首次于2018年末至2019年初上线各大阅读平台，随书代码也同时在GitHub上公开，大家只需要访问本书的GitHub页面，就能在线查看所有代码和运行结果，如果有需要还可以下载到本地运行。每个算法的实现相对独立，行数大多都在数十行内，大多数代码用普通笔记本电脑就可以运行出结果。

想继续听肖智清博士为你详解强化学习的原理与Python实现？还有入门强化学习模型、典型算法详解，解读 2019 年 OpenAI-Gym 排行榜明星案例！

发表于: 2019-11-012019-11-01 17:01:59
原文链接：https://kuaibao.qq.com/s/20191101A0HXJE00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

清华博士解读 AlphaGo 战胜李世石背后的黑科技

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐