编者按:不久前,在斯坦福大学发起的SQuAD文本理解挑战赛中,微软亚洲研究院自然语言计算组于1月3日提交的R-NET模型在EM值上以82.650的最高分占据榜首,首次超越人类成绩82.304。主导SQuAD挑战赛中机器阅读理解研究的正是已加入微软亚洲研究院8年的韦福如,凭借其在自然语言研究领域的突出贡献,他近期也入选了《麻省理工科技评论》中国区35岁以下科技创新35人榜单。在本期“科学匠人”中,韦福如向我们讲述了他在研究道路上的快乐和痛苦,并向更多立志于科研的年轻人提出了自己的诚挚建议。
也许离真正取代人类劳动力还有很长的距离,但毫无疑问的是,人工智能已经进入了一个“野蛮生长”的阶段。刚刚跨入2018年的人类再次被超越——这一次,是阅读理解。
在斯坦福大学发起的SQuAD(Stanford Question Answering Dataset)文本理解挑战赛中,微软亚洲研究院自然语言计算组于1月3日提交的R-NET模型在EM值(Exact Match, 表示预测答案和真实答案完全匹配)上
以82.650的最高分占据榜首,首次超越人类成绩82.304
。一时间,“AI在阅读理解上打败人类”的媒体报道铺天盖地,挑动着大众的神经。
SQuAD机器阅读理解挑战赛,因其能够提供规模庞大的数据集及检测机器学习模型处理大量信息并回答阅读理解问题的机制,被认为是当前世界上检测机器阅读水平最权威的测试之一,享有“机器阅读理解界ImageNet”的美誉。微软亚洲研究院自然语言计算组自2016年9月开始参加SQuAD比赛,几乎持续领先,超越了包括艾伦研究院、IBM、Salesforce、Facebook、谷歌以及卡内基•梅隆大学、斯坦福大学等在内的强大竞争对手。
主导SQuAD挑战赛中机器阅读理解研究的,是已加入微软亚洲研究院8年的韦福如。也正因为在自然语言处理领域所取得的科研成就,韦福如近期入选了“MIT Technology Review Innovators Under 35”(MIT TR IU 35,《麻省理工科技评论》中国区35岁以下科技创新35人)榜单。
韦福如(中间)在EmTech China全球新兴科技峰会上领取“《麻省理工科技评论》中国区35岁以下科技创新35人”奖项
SQuAD“第一”有压力,因为不知道对手在哪里
其实,在2016年7月SQuAD数据集刚刚发布的时候,韦福如就认为机器阅读理解会成为自然语言处理领域重要的研究课题,并且该技术的突破在微软的众多产品线中有着广泛的应用场景。SQuAD既提供了大规模的高质量标注的数据集,为基于深度学习的算法和模型提供数据,其本身也是一种类似ImageNet的挑战赛——测试数据集对参与者不公开,需要把系统提交给主办方运行得到测试集的结果。参加这样的比赛可以在参赛过程中打磨算法和提升研究水平。那时,对于比赛的预期,主办方和参赛方其实心里都没底,大家的目标就是不断精进算法,刷新成绩。刚开始,计算机做到68分的时候,大家就觉得这个结果不错了,如果能再做到70就很好了。但后来,随着模型的不断优化,分数不断提升,2018年1月3日提交的系统最终实现了82.650分的突破。
在2017年第三季度时,比赛状态很是胶着,参赛团队的榜单排名交互向前。此时,作为最早一批且保持领先的参赛者,微软亚洲研究院团队以及其他的研究团队已经陆续将取得的成果发表了论文,使得更多参赛团队可以借鉴、提升各自的系统,从而后来居上。对于韦福如和团队来说,被超越的压力就是动力。他们着重从三个角度不断提升系统:首先是对神经网络结构的优化,这是最核心的因素,通过大量调整和试验,每次都让机器学习的效果做到最佳;其次,加入更多背景知识和先验知识,包括通过在大规模文本数据上通过双向的循环神经网络训练的语言模型得到的上下文相关的词向量等,提升神经网络的表达能力和效果;最后,在系统实现层面不断创新,例如神经网络的训练过程,优化方向等。
就这样,韦福如带领着团队在SQuAD挑战赛中一路领先。尽管大部分时候微软亚洲研究院的成绩都位居榜首,但韦福如表示,“比赛做到第一其实压力会比较大,因为其他团队可以看到第一名在哪里,他们只要瞄准第一名就好。而我们不知道对手在哪里,我们只有不断地创新,超越自己以往的成绩。”不过这也正是做研究有意思、也很痛苦的地方。
“有意思是因为研究总在做不一样的事情、好玩的事情,而痛苦则在于,科研永远都在试错,要不断地否定自己。可能有些人并不喜欢这种感觉,好像总是在跟自己较劲。不过我喜欢,可能这也是为什么我选择了做研究。”韦福如就这样痛并快乐着地享受做研究的乐趣,在“漆黑”中探索未知。自从参赛以来,韦福如和团队每天都会进行讨论,每一两个星期就要有针对性地做些新的尝试,实现小的突破,而大突破就是这样日积月累,从量变到质变的结果。
微软亚洲研究院机器阅读团队
“如果不是研究院,我也许就不做研究了”
看一下韦福如的简历,你就会知道他为什么能入选MIT TR IU 35榜单:在自然语言处理领域国际顶级会议和期刊(如Computational Linguistics, ACL, EMNLP, COLING, SIGIR, AAAI, IJCAI等)上发表论文90余篇,论文被引用超过3500次,H-index为30。不过他却说,“如果不是微软亚洲研究院,我也许就不做研究了。”
很难想象这样一个学霸会差点跟研究擦身而过。韦福如17岁考入武汉大学计算机学院,之后保送硕博连读。读硕士期间就曾在微软亚洲研究院实习了8个月,而就在准备读博的时候他有些犹豫,倾向于开始工作,毕竟互联网产业的快速发展让人眼热。
不过在微软亚洲研究院的实习经历却让他对研究有了新的思考。研究院的环境让韦福如感受到了做研究的自由、开放,每位研究员在这里都有自己的定位与领域,他们的深厚积累以及给年轻人润物细无声的谆谆教导,让韦福如印象深刻,他觉得这就是自己想象中做研究的样子。所以他毅然开始了博士之旅,2009年博士毕业后在IBM中国研究的短暂停留之后,于2010年加入了微软亚洲研究院自然语言计算组。
每次说起研究院来都会提到“没有KPI”这件事,很多人对此都非常向往,如此自由的一个地方,可以随意放飞自我啊。不过在韦福如眼里,“没有KPI才最可怕,因为没有KPI恰恰是最难达成的KPI。”没有具体量化的目标,意味着研究员需要自己去发现问题、定义问题和解决问题,其实这个难度早已超越完成任务,需要上升到另一个层面。
韦福如2010年加入研究院首先从事的是社交媒体上文本挖掘与情感分析的研究,可以更好地实现计算机对社交媒体上用户情感变化的预测,在网络评论中监测人们对产品、品牌等的态度和意见,以及在聊天机器人和人类的对话互动中建立类似人与人之间的关系。目前,他在情感分析领域的研究成果已被广泛应用到搜索引擎必应(Bing)、微软认知服务的文本分析API以及智能聊天机器人(例如微软小冰)等微软的应用和服务当中。他研发的情感分析引擎被用于从社交媒体(例如Twitter)中生成社会情绪信号,而这给必应预测人们对电视节目(例如The Voice美国好声音、American Idol美国偶像)以及社会事件的结果提供了关键的特征信息。
2011年IBM Watson赢得Jeopardy!答题秀,自然语言计算组将目光投向了智能问答的相关研究。很快韦福如就负责启动了基于互联网的问答引擎研究,以微软必应(Bing)的搜索结果为基础做开放域的问答系统,并随着其他同事的加入扩展到基于知识库的问答引擎和基于社区问答的问答引擎,最终开发出名为Light的开放领域问答系统。Light系统与这次参与SQuAD挑战赛的系统有相似之处,但在2012年,神经网络还没有兴起,Light可谓相当前瞻。而Light问答系统中的很多技术也通过和微软必应搜索团队的合作转化到必应搜索引擎中,用以回答用户在必应搜索里问题。
经过Light这个项目,韦福如对于没有KPI有了更深刻的理解。做了一段时间的问答研究,几年下来与产品部门合作,也发了一些论文,就像是老板给了一个方向,趟出来了一条路,也算是基本实现了一些研究目标,但他总在想,接下来要做什么?自己想要去做什么?没有KPI考核,在这个时候,便成为了巨大的压力,如何发现问题、定义问题和解决问题,始终在韦福如脑海中盘旋。
“项目跌宕起伏,还经常“捅破天”
恰逢“微软小冰”在国内成功发布,韦福如和团队便开始探索研发针对美国市场的智能聊天机器人,开发的原型系统在微软技术节(TechFest)上展示并获得非常好的反馈。于是来自微软亚洲研究院、微软总部雷德蒙研究院以及微软必应搜索团队的成员开始了针对英文版聊天机器人Tay的合作,韦福如充满热情地加入其中,负责核心聊天引擎的开发。了解Tay的业界同仁可能知道它的短暂故事:在Twitter上遭遇到网友恶意攻击,上线不到24小时便被迫紧急下线。尽管如此,微软管理层对于Tay的研发团队给予了极大的支持,团队也从事件中学习到一款产品除了拥有领先的技术,还要考虑不同地域的文化因素,以及社会和伦理等方面的问题。
韦福如笑称,虽然项目过程有些曲折,甚至可以说是跌宕起伏,但回过头来看也是个不错的体验,“在这个项目一年多的时间中,有了好几次‘捅破天’的经历,但是公司和领导都给予了足够的肯定和支持,CEO Satya还专门为此给团队发了邮件鼓励。”而研究项目再一次“捅破天”,得到Satya的关注,便是开篇提到的SQuAD挑战赛上的突破。
2016年开始,韦福如继续思考,逐步将自己和团队的工作内容聚焦在了三个方面:第一个是做基础研究,参加SQuAD挑战赛,从对这个领域的理解出发,他觉得这个方向很对,值得做,便着手参与;第二个是与产品部门合作,例如和Office等产品团队在智能问答和智能回复相关领域的合作;第三个是创新孵化,例如将自然语言处理拓展到音乐创作领域,与微软小冰合作,让机器拥有可以作词、作曲的音乐创作能力。这些工作看似比较零散,实际上背后在算法或者是研究上有很强的关联性,因此能相互促进提高。另外,这些不同类型的研究和应用创新,会形成很好的正循环——基础研究和算法上的创新是向产品做技术转化的基石,创新孵化又可以进一步拓宽基础研究和产品合作的方向,产品合作中得到的实际使用场景和问题又会进一步激发新的研究灵感,孵化新的技术和场景。
这三个方向与微软亚洲研究院的三个使命也完全吻合:做最前沿的基础研究,推动整个计算机科学领域的前沿技术发展;将最新研究成果快速转化到微软的关键产品中,以帮助消费者改善计算体验;着眼于下一代革命性技术的研究,去做一些很有挑战,甚至目前完全看不清方向的研究,实现对未来计算的美好构想。
年轻人就应该来这里!
韦福如很感谢微软亚洲研究院给了自己做研究的启蒙,在他看来,“不想给自己设限的年轻人,就应该来这里!如果在研究院待五年,所收获的将不仅仅是在某个技术领域的提升,而是从问题定义、方向寻找到做研究、算法模型、写论文、展示成果都可以获得全方位的提升。不仅如此,微软亚洲研究院还更进一步要求系统实现和产品合作,在这里可以快速成为一个能够独当一面的科研人员和领域专家。”说到这里,韦福如似乎又看到了当年作为实习生的自己,短短的8个月,研究院已然给自己种下了研究生涯的一颗种子,并早早为之后的故事,埋下了伏笔。
而对于年轻人该如何做好研究,韦福如给出了几个建议:
首先是独立。独立思考,有能力从定义问题到实现落地,把握节奏,持之以恒。学校的学习对这一点的挖掘不够充分,研究院的环境可以很好地进行弥补。在这里各种氛围都在激励自己不断学习,你可以看到业界大牛在做什么,微软在做什么,从而逐步提高自己定义问题和独立思考的能力。
其次是持续创新和成长心态(Growth Mind)。要能保持初心,以成长心态积极面对挫折和工作,持续创新。
最后是团队合作。在微软内部,研究院和产品部门的协作非常密切,合作的过程中要有清楚的定位。研究员的特长更多是基础研究和核心技术的研发。研究需要能提前看到趋势,拓展技术的边界和应用的孵化,做出原型系统,和产品部门积极合作,产生更大的影响力。
领取专属 10元无门槛券
私享最新 技术干货