《语言战略研究》微信公众号近期推出“2018中青年语言学家沙龙”专题。敬请关注!
潘悟云,上海师范大学教授
语料大数据作为语言学证据的作用
——“2018中青年语言学者沙龙”主题发言
潘悟云
大数据的实质不是数据大的问题。很多人认为数据大就是大数据,不是的,大数据是一种新的思维:总体思维、容错思维、相关思维。
我把《大数据时代》从头到尾看了一遍,里面个案多,具体的原理讲得并不多。所以我就自己的想法向大家请教:
我们做研究的人都是从信息到信息,信息包括质和量两个方面,比如我们要研究这个词是名词还是动词,这是质的方面。但也有量的方面,这本书里面这个词出现的频率是多少,这就是量的方面。
大千世界,这么多的质的问题并不是都能够解决好的,牛顿的万有引力也只是解决相关问题,引力大小与两个物体质量的乘积成正比,但是为什么会成正比,物理学界还没有解决。很多质的问题不能解决,有时可以用量来弥补质的不足,也就是说可以从量推出质,这是研究语言学的人比较关心的问题。
大数据的量需要多大?一是同研究的对象相关。比如我们研究方言,共有2000个点,我们有1500个点就足够多了。二是数据量与数据的性质相关。数据有结构性数据,有非结构性数据,目前大数据做的基本都是非结构性的。但语言学的数据是结构性的。假如我们只是把声音录下来,那是非结构性的,但如果我们还记上音标,标注了它们的词性、句子成份,那就包含了结构的信息。所以语言学所做的数据量同一般工程的数据是两回事,有时候不需要那么大,因为我们已经包括非常多的信息在里面了。
我们再讲大数据的容错度问题。因为数据大,就不需要那么精确,我们通过统计的方法发现规则,稍微错几个地方有时候并不影响规则的正确性。同时,它同研究对象也有关系。我们曾按方言声调数的分组做了语言分布图:2—3个一组,4—5个一组,6个以上一组。数据库中有一个方言有16个声调,觉得很奇怪,核对以后只有8个。其实,按照以上的分组,即使不纠正它,也不影响总体结论,因为8个也好,16个也好,都属于大于6的一组。
大数据的最重要内容则是相关思维,即通过增加数据的量来获取更多相关信息,从而进一步获取因果的关系。我们举“家”字为例,来看看如果把信息量加大会得到什么以前没有想到的内容。比如把“家”从一个字扩展到与它有相同中古音的类,见母开口二字,这至少可以把它的数量增加100多倍。我们再把一个方言点的读音增加到1200个,乘起来的至少可以增加10万倍。下图就是把数据的量增加以后所得到的地理分面图,红色表示读k-的方言,蓝色读非k-的方言。
图上可以看出,语言点的分布是有序的,有序性表明它里面一定是有规则、有原因的。我们就从这张图讲起,第一,为什么会有这样的分布?第二,为什么以k-的读音作为它的分类?
第一个相关关系,见母开口二等字声母读“k-”的地理分布与东吴疆域相关。
在古代的中国,行政中心往往是政治、经济、文化的中心,文化强势产生语言的强势,附近方言的演变都会向它靠拢,形成一个向心结构。于是,这组方言会形成一个同演区,即具有相同演变的方言区。所以行政区与同演区有相关性。
利用同演区的概念,我们可以追寻一种音变的历史原因。
左上图是两种方言的特征分布,我们一下子难以得知这种分布反映什么问题。右上图我们把一张历史行政图盖上去,就能明显看出来,其中的一种特征实际上是与这个历史行政区有关,由于人口迁移等方面的原因,使语言特征互相之间发生渗透。
用这种方法,我们把中国历史行政地图一张张盖上去,结果只有三国东吴的行政地图与见母开口二等的地理分布贴合。不过,光是这么一张图也可能是属于偶然现象,我们做了好多张语言地图,如汉语声调数大于6的分布图、微母读鼻音的分布图、日母读鼻音的分布图、阴去与阳去有别的分布图、从邪不分的分布图,特别是现代东南方言的分布图,都有相同的地理分布。这么多的地图都有相同的分布,那就决不是一个偶然现象了。于是,我们就从这种相关性去寻找它们的因关性。
江南在魏晋以前是百越区,《三国志》许靖与曹操书,自述从会稽“南至交州,经历东瓯、闽越之国,行经万里,不见汉地”。魏晋以前,中央对百越地区一直没有实现有效的统治,一直到东吴,在强势汉文化的影响下,各地的百越居民纷纷汉化,在学习汉民族先进文化的同时,也接受了汉语。他们所学的汉语实际上是带有自己母语特征的中介语,这就是汉语东南方言的前身。
除此以外,我们还可以进一步引出以下的结论:
1.魏晋是汉语方言的形成期。
2.白读优势。在东南地区见母开口二等字通常是白读才读k-。我们的统计是针对所有包括文读与白读的见母开口二等字,对读音最多的字按k-与非k-进行分类。分类结果是白读字占多数,而且是整个东南方言都是如此,也就是说白读是占优势的读音。
3.汉语方言的分类应该有个层次。汉语的各大方言不是并立的,应该首先分官话和东南方言。
第二个相关关系,见母开口二等声母的地理分布与k-相关。
见母开口二等在全国的方言中有k-、tɕ-、tʃ-、ts-、c-等读音,我们为什么要选取k-作为地图分类的依据,而不是采用其他的音呢?当然,我们也可以采用其他的分类依据,如把k-、tɕ-分为一类,其他为一类。我们按照所有可能的分类一幅幅地画成语言地图,结果发现只有k-与非k-的分类图中方言分布最为有序。有序就意味着规则,蕴含着深层次的因果关系。语言地图的依据是方言特征的统计结果,如果把这种结果与方言史、音变规则结合起来考察,我们会发现逻辑与历史的一致。
决定音变最重要的因素一个是发音器官,一个是听觉器官,这是古今中外都一样的,所以人类语言的音变有普适性,这就是自然音变(Natural Process)。
第一条音变,k腭化以后会有音自然音变:kʲ->c->tɕ->tʃ->ts-
第二条音变,见母二等在上古到中古是kʳ->kᶭ-
于是,我们就得到了见母开口二等字的历史演变图:
这也就从因果性上解释了见母开口二等字现代声母读音的地理分布。
领取专属 10元无门槛券
私享最新 技术干货