12.7
端木三教授讲座
2017年12月7日下午,美国密西根大学语言学系端木三教授在中国社会科学院语言研究所作了关于用双语平行语料进行濒危语言保护的学术讲座。
目前世界上的语言大约有6000—10000多种,据语言学家预测,大部分语言将于本世纪末消失。因此,濒危语言保护(以下简称为“语保”)已经成为了一项极重要而迫切的工作。
建立大规模语音数据库是濒危语言保护工作的一种重要方法。但目前“语保”工作一般对每种语言录制少量的词语和句子,其规模远未达到能完整“复现”一种语言的数量要求。另一方面,大部分濒危语言没有文字系统,难以记录详细的语言事实和规则。为了能快速采集大量的濒危语音数据,并能够对这些语音数据进行有效处理,Abney & Bird (2010; 2011)、Bird (2010) 提出了一种基于“罗塞塔石碑”(Rosetta Stone)方法的构思框架。
罗塞塔石碑制于公元前196年,上面刻有古埃及国王托勒密五世登基的诏书。石碑上用希腊文字、古埃及圣书体(官方文字)和古埃及草书(通俗体文字)刻了同样的内容。这使得近代的考古学家和语言学家有机会对照各语言版本的内容后,利用现存的希腊文解读出了已经失传千余年的古埃及文字。
受这种方法启发,端木三教授及同事提出了一种用“罗塞塔石碑”方法进行“语保”工作的框架模式,其核心思想是利用多语言的信息冗余性,采集大规模双语平行语料库,通过“已知”语言的文本来保存“未知”语言(濒危语言)。由于“罗塞塔石碑”方法依赖的是“文字(已知语)+文字(未知语)”的平行文本,但是濒危语言未知语很可能没有文字,所以语言信息只能以实际发音的窄式音标替代,即以“文字(已知语)+窄式音标(未知语)”的平行文本来处理两种语言。
端木三教授课题组采用 The Buckeye Corpus (美式英语,40小时40位发言人的自然话语,有窄式转写标注)语料库对该方法进行了尝试和验证。他们将汉语假想为已知语,将英语假想为未知语,获得了“汉语文字+英语窄式音标”的平行文本,探讨了该方法框架的技术难点及这种语料的研究价值。
讲座现场
讲座后,端木三教授和社科院语言所的学者进行了热烈讨论。语言所李爱军研究员讨论了大数据和人工智能方法对于“语保”工作的借鉴意义。语言所殷治纲副研究员提出,在“语保”工作中可以把传统“小而精”的科学数据采集法和“大而粗”的工程数据采集法两种思路相结合,例如先录制好濒危语言的基础词典(词汇信息),再辅之以大规模的平行语料库(语境信息),从而实现数据准确度与规模的平衡。此外,他提出在建立平行语料库时,也可以考虑选择语言形态更加丰富的强势语种作为“已知语”,这样在描述“未知语”时可以保存更多的语言背景信息等。之后,端木三教授还参观了语言所实验室,并进行了广泛的交流和讨论。
领取专属 10元无门槛券
私享最新 技术干货