小冰的功能又多了。Siri也很“聪明”。在2017年10月26日,沙特阿拉伯甚至授予一个机器人公民身份。
关于用计算机模拟人类语言进行交流(人机对话)的研究很早便开始了,但是在数十年间没有显著突破,而且还不断出现AI被调教成满口粗鄙之语的丑闻。过去对语言AI的检测是“图灵测试”,即直接进行人机对话,若人类无法判断出对方是真实人类还是机器人,被测试的AI即通过图灵测试。不过图灵测试存在漏洞,因为判断者是真实的人类,人是会被迷惑的,所以可以通过一些小技巧蒙混过关。不过时至今日,即使不使用一些小伎俩,目前已经有不少AI通过了图灵测试。
但是,对语言AI的研究并没有因图灵测试被攻破而停止。美国斯坦福大学计算机科学教授特里•温诺格拉德(Terry Winograd)发现计算机无法回答一系列问题,比如:
“猫坐在毯子上,因为它很温暖。”——什么很温暖?
“镇上的议员们拒绝给愤怒的游行者提供游行许可,因为他们担心会发生暴力行为。”——是谁在担心暴力行为?
“琼对苏珊谢了又谢,因为她伸出了援手。”——是谁伸出了援手?
诸如此类,存在一系列,或“一类”问题,AI无法正确回答。当AI被问到这些问题时,要么会乱答,要么会“顾左右而言它”,不断尝试回避问题。这也是判断隔着屏幕口若悬河的对方到底是不是真人的方法之一,即不断使用这些问题逼问,若始终不回答即为AI无疑。
多伦多大学的多位学者据此创立了一个新挑战方案,旨在将人工智能从花言巧语、蒙混过关的乱象中拉回“智能”的正轨。该测试便被命名为“维诺格拉德测试”,用以纪念这位人工智能先驱人物。
那么这些我们一读觉得毫无问题非常简单的问题,是什么样的问题呢?大体来说,是基于生活常识的,一些模糊的问题。也就是说,这些问题的回答并不需要非常严谨的逻辑推理或数学计算,只是一些简单的,公认的常识;同时这些问题并不是非常的清晰,具有一定模糊性。
再仔细看一看,这些问题有个什么共性?
“它很温暖。”——什么很温暖?
“因为他们担心。”——是谁在担心?
“因为她伸出援手。”——是谁伸出援手?
这些问题的“问题部分”,即最后提问的那一小句,问的是关于前面一个代词的问题。也就是说,这些简单问题的答案,就是问题前一句话那个代词的具体指代对象。
什么很温暖?它很温暖呗。它指什么呢,垫子不是个生物,是不会有温暖这种感觉的,所以这个问题答案应该是猫觉得很温暖,这是我们的理解。问题二,担心发生暴力行为的,理所当然是议员。问题三,是琼在感谢苏珊,那么肯定是苏珊帮了琼。
对于正常人类,读完问题就有答案了。
可是我们发现,能够和你斗图聊天订酒店发短信的AI,回答不出这些简单的问题。那么要解决这个问题,有必要先思考下,我们是怎么解答这些问题的?
前边讲了,问题的答案,就在于前面的那个代词,确定了这个代词的指代对象,就成功回答问题了。从很基本的语法常识得知,通常情况下,使用代词,前面应该先出现过指代对象,那么答案肯定去前面找。问题一,前面有猫和垫子两个名词;问题二,前面有议员和游行者两种人;问题三,前面有琼和苏珊两个人。我们发现了一条隐藏线索:这些模糊又简单的问题,前面出现了两个“平等”的名词。而后面的代词,仅指代其中之一,排除掉不恰当的那个,问题的答案就只能是剩下的那个,就剩最后一步了。
我们人类是怎么排除掉不恰当的那个名词的?用常识啊(耳边仿佛响起了高中老师的声音)。垫子不会感觉温暖,担心发生暴力行为的是议员,感谢别人的人肯定是受到帮助的人。至此,问题已经回答出来了,并没有用到什么语法知识去排除那个名词。
语言学研究认为正确回答一个问题需要至少三个必要条件:前提、百科知识、关联原则。AI之所以不能回答这些问题,就是因为缺乏了生活常识(百科知识)。而这就不是程序算法或语法知识能弥补的了,若要让小冰回答这些问题,还需要给她补充大量的生活常识和基本逻辑,这也不仅限于语言方面了,看来离人工智能的进一步飞跃还有不小的一段路要走。
由美国人在中国香港制造的AI Sophia以模仿人类表情著称,于2017年10月26日在沙特成为全球第一个被授予公民身份的AI。现场Sophia对答如流,表现机敏,“情商”超群,然而现在看来,这里面还是有很大排演成分的。
看到这里,大家都长舒一口气,AI发展得还是不够啊,连个代词都判断不了,还是人类对语言的掌握更充分,说TA就是TA,不会有什么误解,一个人使用自己的母语也极少因代词犯错误。
但是代词真没有这么简单。看一下下面两个句子:
1:小明爱他的妈妈。
2:他爱小明的妈妈。
似乎这两个句子都没有问题,句子1完全没问题,而句子2一读觉得有那么点奇怪,似乎可以做一些其他理解,可能需要补充【他=王叔叔】这个信息。实际上,在没有上下文的情况下,句子2是病句,是不符合语法的。我们在上文分析温诺格拉德测试的问题时提到过,如果需要使用代词,那么在前文中需要先出现这个代词的指代对象,然后才能用代词代替它。
句子2,上来就直接是“他”,TA是谁啊?不知道哦,前面没有任何字了,无法理解,但是通常我们都认为写出来的句子都是正确的有意义的,所以大脑强行补充了一个王叔叔,假装前文出现过王叔叔,这样才辅助理解了这个句子。
那么为什么,一个句子(或语段语篇)里,就不能一上来便直接使用代词呢?
我们对比一下这几个词:他,小学生,王小明,三年二班的王小明,中华人民共和国广东省广州市光明小学三年二班的王小明。可以看到,这些词的“复杂程度”逐渐增加,即,这些词(或词组)中包含的信息越来越多,所指的对象越来越精确。
那么,在阅读文字时,如果前文出现过上述的这5个词,大脑是回想一个“他”比较容易,还是回想一个“中华人民共和国广东省广州市光明小学三年二班的王小明”比较容易呢?显然是“他”会更容易,并且这5个词的“回忆的困难程度”逐渐增加。这个“回忆困难程度”我们称其为:可及性(Accessibility)。越容易回想起来的词语,可及性越高,反之亦然。
可及性的高低受三个因素的影响:1、信息量。一个词语包含的信息越多,可及性越低。2、确定性。一个词语所指的现实物体越确定,越清晰明确,可及性越低。3、简略度。一个词语的形式越简略,可及性越高。
这个可及性有什么用?低可及性词语不能与高可及性词语同指。换种说法,不能用一个低可及性的词(比如“小明”)去指代一个高可及性的词(“他”)。道理很简单,语言总是趋简,使用指代总是为了压缩信息并降低表述难度。因而,我们总是用“他”来指代“小明”的。
回看句子2(他爱小明的妈妈),“小明”出现在了“他”的后面,大脑的理解是“小明”在指向“他”。但是“小明”的可及性比“他”低,不能用一个低可及性的词去指代一个高可及性的词,这个句子与语法规则相冲突,是不合语法的,是病句。
图源:slideshare.net
如果你比较细致,应该发现这里存在一个问题。怎么就说是“小明指代他”,而不说是正常的“他指代小明” (如句子1)?如果在句子2中,是“他”指代“小明”,那么句子便可理解为“小明爱小明的妈妈”,就很正常了。
之所以不能这样理解,是因为指代关系中的两个(甚至多个)词语地位不是平等的。句子中有一个词语,它的地位最高,我们称这个词为观念参照点,简称参照点(reference point)。一个参照点有它自己的一块领地(dominion),这个领地可以理解为那个词指代的具体物体所牵涉到的那部分语篇文字。在一个参照点的领地内,若存在指代关系,一定是其他词语指代参照点。那么对上文所述的那条语法原则做一个补充:在一个参照点的领地内,不能用一个低可及性的词语去指代参照点。
那么问题又来啦,一个词凭什么被选成参照点(地位最高)呢?还是三个因素,长话短说:1、显著的词语更有可能是参照点。什么词语最显著?一个句子中,当然是主语最显著啦。2、在逻辑关系或常识观念中与当前语篇联系更紧密的词更有可能是参照点。也就是:看当前语境,由常识判断。3、线性语序(不是倒装句或其他非正常语序)时,先出现的词更有可能是参照点。我先来的,当然我要当国王。但是,语序对参照点的选择影响较弱,只有经过前两个因素仍不能判断参照点时才会考虑语序。
再拿句子1和2当例子分析:小明爱他的妈妈。小明是主语,是爱这个动作的执行者,与语篇的联系非常紧密,而且最先出现,当然是参照点,其后的代词“他”的可及性远高于参照点,句子OK。句子2,“他”是主语,也是语篇的直接中心人物,也先出现,但是小明不能指代“他”,有问题了,尝试选择小明,小明的妈妈,妈妈,做参照点,均无法理解。说明这是个彻底的病句。
前文提到“‘小明’出现在了‘他’的后面,大脑的理解是‘小明’在指向‘他’”, 这就是前两种方法都无法判断才被迫用了语序法。句子2无意义,所以方法1主语法、方法2语境法都无效,因为这两个都是建立在理解句子和语篇的情况下的。
语序法是强行解决问题的,它不管内容,只要出来一个名词,就抓它为参照点,后面都指代它了;而恰好此时句子2先来的“他”又处在主语位置上,又符合主语法,所以选此为参照点,小明指代他了。语序是非常简单的判断方法,通常也都这么理解,后面指代前面。其实,很多情况下也并非如此。
经过一长篇文章看下来,你终于对代词有了点掌握。这时女朋友给你发来一条信息:“说,她是谁???????”她?代词,谁,似乎也是代词。哈哈,这句子,错的没边了。“你这句子有问题啊,我怎么知道她是谁,你前文没有提到,我跟你说,你要是想用代词……”
哎呀。
凉了,下一个。
系统警报:您的男友可能是个AI……
END
领取专属 10元无门槛券
私享最新 技术干货