程序使用argparse来输入参数,需要输入的参数有:
--f-corpus:外语语料路径,每行一句(中文语料需分好词)。
--e-corpus:英语语料路径,每行一句,须与外语语料句对齐。...以上试运行表明程序设计正确,接下来我们将程序运行于较大的语料上。
大语料运行演示
我们使用的FBIS语料为中英对齐语料,数量为10k,内容如下:
?
在终端使用如下参数训练:
?...短语抽取实验
代码解释
本小节我们使用Python实现一个短语抽取的模型,该模型能根据之前实验得到的词对齐,从大量句对齐的语料中通过实现短语自动抽取(抽取的短语不一定具有语言学意义)。...例如输入的对齐A=[(1,1), (2,2)](即教材上的黑格子坐标),则可以进行三次抽取,每次抽取的下标范围为(1,1,1,1)、(1,2,1,2)、(2,2,2,2)(即教材上的灰矩形坐标,由两个顶点确定...结果基本正确,但由于部分词没有相应的对齐,以及没有对抽取行为做限制,仍有较多瑕疵。后续可以通过训练更好的词对齐(如正反训练一遍做并集)、对抽取短语的长度做限制等,可以提升抽取结果的质量。
?
?
?