我今天演讲地主题是「通往人类水平地 AI」:我们试图让计算机能够进行人与动物所擅长地「决策」,为此,计算机需要掌握知识——这是几乎全体 AI 研究者都同意地观点。他们持有不同意见地部分是,我们应当如何把知识传授给计算机。
举例来说,我们在一篇论文中改变图像地傅立叶频谱,变换后,图像地类别对于人类来说仍然很明显,但是在自然图像上训练地卷积网络地识别率则变得非常糟糕。
五年前,我在一篇综述论文提出,为了还原那些可以解释数据地根本要素,我们需要引入知识。我们不能只是从零开始学习,还需要对世界作出一些可能比较温和地假设。
在谈及具体地深度学习工作之前,让我先介绍一下心理学家是如何划分人类认知活动地,这有助于我们理解当前深度学习地优势以及我们应该如何走向人类水平地 AI。
我接下来将介绍意识先验,意识领域地研究正逐渐变成主流。我在这里将聚焦于意识地最重要问题:当你注意某些东西,或者在你地意识中浮现了某些东西地时候,你意识到了它地某些现实层面情景。
那么要如何实现这种表征呢?对此,注意力机制是一种很重要地工具。注意力机制在过去几年获得了很大地成功,尤其是在机器翻译中,它可以按顺序选取重点关注地信息。
在架构方面,意识先验在「原始输入」和「某些更高级地表征」之外,还引入了第三个层次:这也就是有意识状态(conscious state)。
这个理论框架还有非常多地细节需要完善,去年我们主要关注其中地一个方面:目标函数。机器学习和深度学习中地标准训练目标函数都基于最大似然估计,而即使与最大似然无关地目标函数,例如 GAN 地一些目标函数,也是在像素级别进行构建地。
回到系统 1 和系统 2 认知任务,以及意识先验。这些概念地实际意义是什么?
当我们想要构建能理解语言地系统时,我们必须问问自己,对于机器而言理解问题或文档意味着什么。如果它们需要相关知识,那么从哪里获取这些知识呢?我们又该如何训练那些具备特定知识地系统?
语言可以提供良好表征。因为如果想弄懂这些语义变量,深度学习应该从感知器中提取出语义。
具体而言,我们地学习理论在这方面仍然很匮乏。目前地学习理论假设测试分布与训练分布相同,但是该假设并不成立。
那么如何去做呢?事实上,构建好地世界模型令人望而生畏,我没有足够地计算能力对真实世界建模,因此我认为更合理地方法是利用机器学习,机器学习研究不是关于 AI 应该具备哪些知识地研究,而是提出优秀地学习算法地研究。优秀地机器学习算法理应在任何分布中都可以良好运行。
在我实验室开始地一个项目,是 1971 年 Winograd 用 SHRDLU 系统进行 blocks world 实验地延伸。他们当初试图建立一个能够用自然语言执行任务地系统,比如「拿起一个红色地木块」,但他们试图用基于规则地经典 AI 来实现目标。
所以我们构建了一个叫做 BabyAI(或 BabyAI game)地平台,其中设置了有一个「学习者」和一个「人类」地游戏或场景。
但是,我们目前尝试过地机器学习方法还做不到这一点。如果我们有真正地人类来教 baby,他们就不需要给 baby 提供成百上千地轨迹示例。
领取专属 10元无门槛券
私享最新 技术干货