昨天,埃尔特的办公室里发生了激烈的争吵,导火索是人称“大陆版赵又廷”的设计老师突然开始学英语了,于是问公司的几位同事,怎样才是最科学的英语学习方式。埃尔特立刻分成了两派——以多年海外生活经验的海归为代表的“囫囵吞枣派”和以英语八级的国内学霸为代表的“稳扎稳打派”。
囫囵吞枣派主张
读
大量的阅读,先从简单的绘本开始,遇到不会的单词不用着急查字典,尽量猜。多阅读,先和英语混个“脸熟”,把语感培养起来。
背
稳扎稳打派主张
先背单词,词汇量是王道,基础不打好,以后走不远。
囫囵吞枣派反驳
读
你们学中文难道都是先背字典的吗?谁不是从看小人书、连环画开始的,上来就背单词绝对是反人类的。
背
稳扎稳打派反驳
字都不认识怎么看书,句读之不知惑之不解,不把词、句吃透,未来就是个半吊子。
我也加入了争吵,晚上回想这件事,突然发现,我们学习一门语言,其实是可以借鉴机器学习的经验和教训的,在人工智能时代,我们为什么不看看机器是怎么学习的呢?
其实自从1946年第一台现代电子计算机问世以来,“能不能让机器学会人类语言”就一直是一个非常受关注的话题。
世界第一台计算机问世
1956年的夏天,信息论的创立者香农博士,与其他九名年轻的科学家,在达特茅斯学院开了一个头脑风暴式的研讨会,他们称为“达特茅斯夏季人工智能研究会”,在会上,大家讨论了当时计算机领域尚未解决的几个重大议题,包括人工智能、神经网络等等,人工智能这个词就是在这次会议上提出来的,所以1956年也被称为是“人工智能元年”。而这个会议上提出的另一个重要议题就是:如何让机器学习人类的语言。
从此,机器对自然语言的学习,就变成了计算机科学领域一个重要的课题。
最初,科学家认为机器学习自然语言,应该遵循人类学习语言的方式,那就是要学习语法、了解语义。
但是这两点其实都很难做到,比如分析语法,其实是一件很复杂的事情,一个很简单句子,如果我们把文法分析画出图示来的话,就会发现是一个复杂的二维树(Parse Tree)结构,我们要分析什么是主语什么是谓语什么是宾语,还要研究其中包含的各种状语从句、名词短语等细微的结构,在这个结构之下,还要分析名词动词形容词……哪怕只有几个字的短句子,也会画出一个复杂的文法分析树,并且标注十数条文法规则。
有人做过统计,要想通过文法规则覆盖哪怕20%的真实语句,文法规则的数量也至少是几万条,这里还不包括词性标注的规则。如果要想覆盖50%以上的句子,文法规则的数量最后会多到每增加一个新句子,就要加入一些新的语法。
其实不仅仅机器学习自然语言,人类学习外语也面临同样的问题:多少大学毕业生,在学习了十多年的英语之后,也看不懂没有字幕的美剧。原因就是我们学习再多的语法,也不能涵盖全部的英语。无论是人脑还是计算机,用这种方式学习,完成这么大的计算量,都是不现实的。
而在学习语义方面则更为复杂,自然语言中,词的多义性很难用规则来描述,甚至不止依赖上下文。比如人工智能专家明斯基就举过一个著名的例子:the pen is in the box,和the box is in the pen。第一句话很好理解,笔在盒子里。而第二句话就稍难一些了,要理解这句话,必须知道pen在英文里还有围栏的意思。这个语义已经不是通过联系上下文能够解决的了,而是要具备一定的通识。
另外,任何语言都有语法规则覆盖不到的地方,这些例外我们经常会视为”病句“,但是有的病句也让我们的语言更为丰富多彩。机器学习的专家吴军老师举过一个例子:莎士比亚的作品里包括大量违反古语法的名句,在他那个时代的人看来就是“病句”,而且那个时代就开始有人试图“净化”莎士比亚的戏剧,可今天这些“病句”非但没有消失,反而成了经典,而试图“净化”的人却早已消失在历史的长河中。
从上个世纪六、七十年代一直到九十年代,机器学习自然语言遵循着分析语法、获取语义的原则—这种我们认为人类学习语言的最佳方式,结果足足三十年的时间,机器学习没有丝毫进展。相信和我一样年纪的人,都用过类似“东方快车”这样的翻译软件,那些驴唇不对马嘴的翻译曾经让我们非常抓狂,而它遵循的就是我上面提到的学习方式。
到了九十年代,机器学习自然语言,从基于规则的学习方法转换到了基于统计的学习方法,也就是用数学的方法学习语言规律,从此,机器学习自然语言得到了飞速的发展。
这种方式其实说白了非常简单:一个句子是否合理,就看他出现的概率有多大。当我们给了机器足够充分的“机读语料”,再辅以条件概率公式,我们就可以在已知第一个词的前提下,计算出第二个词出现的概率。只要有足够多的观测值,根据大数定理的支持,我们就可以预测概率。
换句话说,无论宣称多么智能的机器,它在识别或者翻译人类的一句话时,压根就不知道这句话是什么意思,在它的眼里,这句话只是以这种方式出现更为合理、概率更高而已。比如那个会写诗的微软小冰,当它写下“雨过海风一阵阵”的时候,它并不知道海风一阵阵是什么意思,也不知道下雨是什么感觉,只是在它的数据库里,这几个字拼在一起,被视为是好诗的概率更高,仅此而已。我去年看小冰的新闻,有很多诗人对小冰的诗不屑一顾,说只不过是一些“文字游戏”而已。其实,小冰玩的哪里是“文字游戏”,明明是“数学游戏”啊。
当然,对机器来说,让语言学习的整个训练模型平滑,还需要很多巧妙的算法,比如隐含马尔可夫链、卡茨退避法等等等等,但其核心依然是条件概率加上语料搜索。
对照人工智能来看我们的语言学习,其实有相通之处。比如,对机器来说,机读语料是非常重要的,机读语料组成了判断概率的基础。举个好玩的例子,腾讯公司的机器学习技术,在原则上和算法上都没有大问题,但是在初期的实际应用中却几乎完全无法使用,原因就是腾讯的开发部门给机器的语言模型,最早是将《人民日报》作为语料的,因为腾讯的程序员兄弟认为《人民日报》是最干净、最地道的中文文献(原谅程序员的呆萌)。而现实生活中,如果评价一个人说话跟人民日报似的,那基本就属于一句脏话了吧,很可能引发类似斗殴之类的体育活动。
这就像我们人一样,我们阅读什么样的书籍,接触什么样的文字,在很大程度上决定了我们的谈吐和学养。所以很多老师主张将“语文课”改成“阅读课”,学生在语文上遇到的问题,诸如表达能力、写作能力等,几乎都是可以通过高质量的阅读来解决的。
对比机器学习,我们似乎可以反思,那种一条条分析语法、背诵语义、归纳中心思想的学习方式,是低效的、刻板的、不经济的,也是连机器都无法穷尽而被抛弃的。
而那种背诵好词好句、规律匹配的学习方法,也许适合机器,但并不适合人,我在《阿尔法狗来了,机器猫还会远吗》那篇文章里说过,我们需要担心的不是机器开始像人一样思考,更应该担心的是人变得像机器一样思考。但是我们的教育方式,很多时候就像费曼在《透视巴西教育》里说的:
费曼(1918-1988)
“
学生可以把什么都背得很熟,但完全不理解自己在背些什么,当我向他们提问时,我就好像在向一台电脑提问,而刚好敲对了关键字眼而已。他们的书本知识和真实的世界是隔绝的!
”
这是一种把人当机器的训练方式,而不是教育。
我想象中的语文课,是像2016年全人奖得主樊阳老师的“人文行走”那样,是像傅国涌老师的“与世界对话”那样,站在大语文的视角上,以全盘规划的方式为学生的语文发展搭桥铺路,就像傅国涌老师所说:“读万卷书,行万里路,将纸上的阅读与地上的行走结合起来,将阅读与写作结合起来,在读书的同时,也展开辩论和言说的训练。这是大语文的教育思路,也可以说跨出了语文的范围,涵盖了文史哲甚至更广阔的领域。”
好的语文,就是提升孩子与世界对话的能力,感受这个世界的美,表达这个世界的美。
新春伊始,万物复苏。埃尔特教育特邀著名学者傅国涌老师,为同学们带来了全新系列课↓↓↓
点击“阅读原文”,带上孩子听傅老师讲春天里的秘密。
领取专属 10元无门槛券
私享最新 技术干货