在前几篇我的关于形式语言的文章中,我们大致可以理解到形式语言有以下的几个缺陷:
1:比如像汉语,英语这样的大型的自然语言系统,形式语言就比较难以构造精确的文法.
2:形式语言的逻辑规则太过于复杂,实际上并不符合我们的学习语言的习惯....
3:有一些句子.比如你这句子的文法是正确的,但是实际上在我们的生活中是不可能发生的,形式语言是无法识别这些句子的....,但是实际上却是现自然语言的基础甚至是瓶颈.
2:语言模型
语言模型在自然语言处理中占有着重要的地位,特别是在基于统计模型的语音识别,机器翻译,分词和文法分析中都是有这广泛的应用,因为我最近在学习n元语法模型...就按照三元文法为例:
在之前的介绍中,我们可以认为这是一个词的概率实际上只是跟前边的词有关,那么就可以有以下的方程:
为了使p(wi|wi-1)对于i=1有意义,我们需要加一个句首标记,为了使概率之和为...0.06,这也就是n元文法的一个简单应用.