首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

微软披露目前规模最大的语言拼写校正系统Speller100

微软开发了一个称为Speller100的系统,官方提到,这是有史以来覆盖最多种语言,并且准确性最高的拼写校正系统,Speller100能够校正100多种语言的拼写,进而改善Bing用户的搜索结果。

微软搜索引擎Bing服务全球用户,接受100多种语言的查询,而在用户提交的查询中,约有15%的存在拼写错误,而使用带有拼写错误的资料查询,便会得到错误的答案,降低查询结果的品质,因此拼写校正是Bing搜索堆栈中排序很前面的组件,因为能够有效改善所有下游搜索组件的结果。

在很长一段时间,微软都只提供大约20种语言的拼写校正,而其他语言的用户,则必须手动修正错误查询,或是接受较差的搜索结果,而微软为了要提升Bing的搜索品质,将当前的拼写校正服务扩展至100多种语言,并且要为这些语言,提供与原本20种语言相同的校正品质。但微软很快就发现这是一个极困难的目标,因为模型需要有大量的资料来训练每一种语言的模型,更别说要收集100种语言的资料,势必付出难以计数的时间和金钱。

微软克服了这个困难,推出了高精确度和高召回率的大规模多语言拼写校正模型,这些模型被统称为Speller100,微软主要使用了零样本学习(Zero-ShotLearning)以及大规模预训练技术,来完成这样的目标。

传统拼写校正解决方案,都是使用网络上的资料,来强化语言模型,但这种方法仅对存在大量资料的语言有效,对于网络只有少数资料,用户反馈也少的语言,要收集足够的训练资料,是一个大挑战,因此微软认为,这些语言模型不能只依赖训练资料,来学习某种语言的拼写。Speller100的基础是使用语言家族的概念,以多种语言共享的相似性,来组成更大一组的语言。

而零样本则是另一个概念,可以让语言模型更准确地学习和校正拼写,不需要特定语言的标注训练资料,微软解释,这就像是人们自动学习了德语、荷兰语、南非荷兰语、苏格兰语和卢森堡语的拼写,这是Speller100中的关键组件,可以将拼写校正扩展到非常少,甚至是没有资料的语言。

虽然目前BERT、UniLM和DeBERTa等大型Transformer网络在自然语言处理上,已经有很大的进步,能够用于下一句预测和翻译等工作,但微软提到,拼写是完全不同的语言任务。广义上来说,拼写存在2种错误,一种是单词不存在于特定语言词汇表中,称为非字词错误(Non-Word Error),另一种是单词本身有效,但是不适用于整体文意,称为真字词错误(Real-Word Error),这两个错误都是字符层级的变异,与目标字词存在合理的编辑距离,因此拼写校正的核心,便是创建错误模型和语言模型。

整体来说,拼写校正是一个串行到串行的问题,要将拼写错误的文本,转换成为正确的形式,把错误看作是噪声的话,就可以把拼写校正工作,当作是将损毁的文本,转换为原始文本的降噪过程,微软采用类似脸书的BART技术,这是一个适用于自然语言生成、翻译和理解的单词等级降噪自动编码预训练方法。

微软设计了噪声函数,来模仿旋转、删除和替换等常见拼写错误,进而减少机器学习人工标签的需求,特别是对没有训练资料的语言来说特别有用,进而获得预训练模型,并且对模型进行微调,就可得到适用于特定语言的零样本或是少量样本学习。

使用了Speller100系统,可有效降低30%在Bing中没有结果的页面数,用户需要手动重组查询的次数也减少5%,而且也大幅增加了用户点击拼写建议的次数,从原本个位数百分比上升到67%,用户点击结果页面中任意连接的几率,也从原本的个位数百分比,上升到了70%。微软提到,这些数字说明了Speller100的效果。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210210A06K1H00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券