Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AI技术讲座精选:用端到端训练模型进行语法智能纠错

AI技术讲座精选:用端到端训练模型进行语法智能纠错

作者头像
AI科技大本营
发布于 2018-04-26 02:31:41
发布于 2018-04-26 02:31:41
2K02
代码可运行
举报
运行总次数:2
代码可运行

现有的拼写检查系统可以识别拼写错误,但无法识别出语法错误,本文的亮点在于使用流行的 seq2seq + attention 模型,在大规模拼写检查数据集上进行训练,用以简单的语法错误识别任务。

对上下文敏感的拼写检查系统(例如 Autocorrect)虽然可以纠正大量的来自于即时消息、电子邮件和短消息中的输入错误,但却对即便是最最简单的语法错误无能为力。举个例子,信息“ I’m going to store ”将不会被自动纠错系统报错,但人们通常更倾向于说“ I’m going to the store ”。

最近自然语言处理(NLP),在深度学习的驱动下取得了一些进展(例如Bahdanau 等人2014年在 Neural Machine Translation 中的工作),受这些进展的启发,我决定训练神经网络来解决这个问题。确切来说,我将从构建序列到序列模型着手,这些模型能够处理书面用语对话样本,并能够生成样本正确的表达形式。

在这篇博客里,我将会描述如何构建这些“深度文本纠错器”系统,并展示一些鼓舞人心的初步结果。

用深度学习来纠正语法错误

这个项目背后的基本思想是我们可以从语法正确的样本入手,引入一些小错误来产生输入输出对,然后生成大的数据集用于执行语法纠正的任务。关于如何构建这些数据集,如何用它们训练模型以及如何预测这些任务等细节问题将在以下内容中描述。

  • 数据集

我从大量以语法正确的书面英语对话为主的语料入手,来创造用于训练深度文本纠错的数据集。这个项目首要考虑的数据集是“康奈尔电影对话库(Cornell Movie-Dialogs Corpus)”,这个对话集包含了超过30万条来自于电影剧本中的台词。这是我能找到的最大相关数据集了。

拿到类似这样的样本后,下一步就是生成输入输出对,用于训练。该过程按以下步骤完成:

  1. 从数据集中摘取一条样本句子。
  2. 给这个句子加入一些噪声,然后设定一个输入序列对应这个句子。
  3. 将输出序列设定为没有加入噪声的句子。

步骤2中的噪声是故意引入的语法错误,也是我们希望模型能够纠正的错误。目前这些噪声限定于以下范围:

  • 从文章中删去("a","an","the")。
  • 从动词缩略语中删去第二部分(如"ve","ll","s","m")。
  • 替换某些单词体为其同音的常用词。(如将"their"替换为"there",将"then"替换为"than")

举个例子,给定以下样本句子:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
And who was the enemy?

与之对应生成的输入输出对为:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
("And who was enemy?","And who was the enemy?")

引入这些噪声的依据是 CoNLL2014 语法错误纠错分享任务(“ CoNLL 2014 Shared Task on GrammaticalError Correction ”)的统计数字。在这个项目中,每一次噪声都以25%的概率随机施加在可能发生的情况中。

  • 训练

为了扩充训练序列到序列模型时需要的数据集。我对电影对话数据多次应用了上文描述的抽样方法,以获得原对话2-3倍的数据集。通过扩充后的数据集,训练按照“ TensorFlow 的序列到序列模型教学”(“TensorFlow’s sequence-to-sequence tutorial”)中提出的模型。换句话说,我训练包含了LSTM编码器和解码器的序列到序列模型,如同2014年 Bahdanau 等人用注意力模型将编码器和解码器关联起来。

解码

这个项目并非使用基于最大后验概率进行解码,而是利用本问题的独特结构,将所有已解码序列的符号(token)要么存在于输入序列中,要么属于“已纠错”的符号集合中。“已纠错”的符号集合通过训练构建,并且对应于训练集合中至少一个样本,包含所有在目标中而非来源中出现的符号。这样做的理由是训练中遇到的错误主要包含对少数常用词汇(如“the”,“an”,“their”)的误用,而本文提出的模型应当只允许在这一领域中纠正这些错误。

这部分工作是通过对TensorFlow的序列到序列模型进行修改后执行的,是用来解决未登录词(OOV)问题的预处理过程。

有偏解码

为了将解码限制在仅从输入序列或已纠错符号集中选取符号,该项目对模型的逻辑回归先验概率用二值掩码(binary mask)表示,并将掩码输入下一阶段的预测模块。

这个步骤通过构建掩码完成:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
mask[i] == 1.0 if i in (input or corrective_tokens) else 0.0 

然后通过以下方式在解码过程使用:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
token_probs = tf.softmax(logits)
biased_token_probs = tf.mul(token_probs, mask)
decoded_token = math_ops.argmax(biased_token_probs, 1)

因为该掩码用于结果的softmax变换(其保证了所有的输出为正),我们能够确保只有输入和已纠错的符号能被选出。

注意在训练中没有使用这里的逻辑回归先验概率,因为它只能用来隐藏模型中可能有用的信号。

处理未登录词(out of vocabulary)符号

由于上述的有偏解码出现在该模型使用的删减词汇中,我们仍然会见到未知的符号出现在任意集外词汇符号的模型输出中。解决更为普遍的集外词汇符号问题十分重要,但在这个项目中我们可以再次利用该问题的独特结构,创造一个非常直接的集外词汇符号解决方案。

尤其是,如果我们假设输入序列中的集外词汇符号集合等同于输出序列的集外词汇符号集合,则可以简单地为解码过程中遇到的每个未知的符号分配一个合适的符号。

例如,在下面这个场景中:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
Input sequence: "Alex went to store"
Target sequence: "Alex went to the store"
Decoding from model: "UNK went to the store"

根据上述逻辑,UNK将被替换为Alex。

从经验和直觉上讲,这是一个很合理的假设,因为训练这个模型处理的错误都相对简单,绝不会插入或移走某个特殊符号。

实验和结果

以下是使用深度文本纠错器模型和康奈尔电影对话数据集来试验的的一些有趣的和整体的结果。该数据集包含304713条来自于电影对白中的台词。其中243758条用于训练模型,30474条用于验证和测试。对于训练集,对话库中的每一条台词都如之前描述的那样,抽取两个样本。集合都按以下原则选取:不允许有同一部电影的台词同时出现在训练集和测试集中。

下面用于评价的模型是一个序列到序列模型,其编码器和解码器以注意力机制连接,都是2层,512个隐藏单元的 LSTMs。该模型在训练时,词表包含出现在训练集中的2000个常用词词汇(需注意由于我们的集外词汇解决方案,可以用更少的词汇来训练)。该模型使用了与2014年 Bahdanau 等人类似的成组(bucketing)方案,产生了输入输出对容量分别低于10,15,20和40的四个模型。

  • 整体表现

下面是从测试数据集上计算得到的 BLEU(由NLTK计算)和精确度,用于评测训练模型和基准模型。这里使用的基准模型仅仅是一个分辨函数,假设输入端不存在错误。其动机是测试引入训练模型是否有助于提高当前没有语法纠错系统的模型的分数。

振奋人心的是,在所有组别中,本文提出的训练模型在精确度上都战胜了这个基准模型,而在BLEU分数上只有一项未能战胜基准模型。

这告诉我们,平均来看,在针对可能出现错误的书写样本使用深度文字纠错模型能够生成语法更为正确的书写样本。该模型针对性地训练了几种错误,任何倾向于犯类似错误人都可以让用该模型检测他们的信息。

Bucket (seq length)

Baseline BLEU

Model BLEU

Baseline Accuracy

Model Accuracy

Bucket 1 (10)

0.8341

0.8516

0.9083

0.9384

Bucket 2 (15)

0.8850

0.8860

0.8156

0.8491

Bucket 3 (20)

0.8876

0.8880

0.7291

0.7817

Bucket 4 (40)

0.9099

0.9045

0.6073

0.6425

  • 例子

除了模型的整体结果令人振奋,我们还能预见可以将其拓展到超出电影对话数据集的特定语言形式之外,只要用一小段编造的,有语法问题的句子来测试一下就行。下面给了一些例子,你也可以用样本来验证你的例子。

解码丢失成分的句子:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
In [31]: decode("Kvothe went to market")
Out[31]: 'Kvothe went to the market'

解码混淆then/than的句子:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
In [30]: decode("the Cardinals did better then the Cubs in the offseason")
Out[30]: 'the Cardinals did better than the Cubs in the offseason'

注意除了纠正语法错误外,这个系统还能顺利地处理未登录词符号。

未来的工作

虽然当前的结果很鼓舞人心,但仍有很大的提升空间。阻碍这个项目发展的最大问题是缺少一个大的数据集-康奈尔电影对话数据集的30万样本相对于现代深度学习标准来说还是太少了。不幸的是,我并不知道任何一个公开的(大部分)语法正确的英文数据集。近似的数据集可以是“高质量”在线论坛中的评论,比如黑客新闻或 Reddit 的某个子板块。我之后会去试试。

有了更大的数据集,我还会考虑在训练样本中引入许多不同的错误。目前可用的噪声局限于相当常见的语法错误;如果这个模型能够学会纠正更为细微的错误如主谓一致等,那将是十分有趣的。

在应用前沿,我可以预见,这个系统将会作为“纠错” API 的一部分,应用于多种消息应用的程序界面中。

本文代码:

https://github.com/atpaino/deep-text-correcter

本文 Demo:

http://atpaino.com/dtc.html


相关数据集

https://archive.org/details/stackexchange

http://trec.nist.gov/data/qamain.html

http://opus.lingfil.uu.se/OpenSubtitles2016.php

http://corpus.byu.edu/full-text/wikipedia.asp

https://en.wikipedia.org/wiki/Wikipedia:Database_download#English-language_Wikipedia

http://opus.lingfil.uu.se/

Hacker News 上的评论

Jmiserez:

从互联网收集一个大型的,高质量的数据集可能不是那么容易。HN 、Reddit 以及论坛上的许多内容在语法上是低质量的,而且通常是由母语不是英语的读者写的(比如我自己)。电影中的对话也不像我们写信一样,可能会有语法不正确的句子。或许有一些公共领域(不受限制)的当代文学可以用来替代或者辅助对话。

与这次的项目无关,我对这种针对低质量的评论或者电子邮件进行训练的语言推荐工具是有些担心的。简单的词典和语法检查足以帮助人们在写作时找到正确的词。但是,一个工具如果可以理解我的意图,然后提出重组或者找到相似的句子或词语来传达相同的意思,那么它会是一个真正的杀手级应用程序。

Brandonb:

有趣的观点!我认为这跟在计算机视觉中的降噪自动编码器的想法类似。这篇文章不是在像素级引入高斯噪声或者使用CNN,而是在世界水平上引入语法“噪声”,并且使用LSTM。

我认为一般框架是适用于许多不同领域的。比如,我们在HealthKit数据(步数和心率测量的序列)的基础上训练降噪序列自动编码器,以便在这些身体指标的基础上,预测某人是否可能患有糖尿病,高血压或心律失常。我也看到类似的想法应用于EMR数据(类似于word2vec文本深度表示模型)。值得阅读的是"Semi-Supervised Sequence Learning"(“半监督序列学习”),其中他们使用非去噪序列自编码器作为预训练步骤,并比较两种不同的技术:https://papers.nips.cc/paper/5949-semi-supervised-sequence-learning.pdf

最后,你开始考虑引入不同类型的语法错误,如主语-动词分歧。我认为这是一种很好的思考方式。在极限情况下,你甚至可能有一个神经网络生成越来越难的错误语法,目的是“愚弄”校正神经网络,当你的产生错误的神经网络与校正神经网络相互竞争时,你就可能会产生生成式对抗网络:https://arxiv.org/abs/1701.00160

本文作者 Alex Paino 毕业于密苏里大学,目前在Sift Science研究机器学习领域,专注于建立精准的模型用于协助各种防滥用现象的产品。


编译: AI100

原文地址:http://atpaino.com/2017/01/03/deep-text-correcter.html


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-01-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技大本营 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
文字语义纠错技术探索与实践
文本语义纠错的使用场景非常广泛,基本上只要涉及到写作就有文本纠错的需求。书籍面市前就有独立的校对的环节来保障出版之后不出现明显的问题。在新闻中我们也时不时看到因为文字审核没到位造成大乌龙的情况,包括上市公司在公开文书上把“临时大会”写成为“临死大会”,政府文件把“报效国家”写成了“报销国家”。有关文本纠错的辅助工具能给文字工作人员带来较大的便利,对审核方面的风险也大幅降低。
用户10103085
2022/12/21
1.4K0
文字语义纠错技术探索与实践
AAAI 2020 | MaskGEC:通过动态掩蔽改善语法纠错
今天给大家介绍北京大学计算语言学教育部重点实验室的Zewei Zhao和Houfeng Wang在AAAI 2020发表的文章“MaskGEC: Improving Neural Grammatical Error Correction via Dynamic Masking”。作者在文章中提出了一种通过动态掩蔽改进基于神经机器翻译的语法纠错模型的方法,该方法解决了模型对“错误-正确”句子对的语料库的需求。
DrugAI
2021/02/01
7370
AAAI 2020 | MaskGEC:通过动态掩蔽改善语法纠错
中文语法纠错全国大赛获奖分享:基于多轮机制的中文语法纠错
中文语法纠错任务旨在对文本中存在的拼写、语法等错误进行自动检测和纠正,是自然语言处理领域一项重要的任务。同时该任务在公文、新闻和教育等领域都有着落地的应用价值。但由于中文具有的文法和句法规则比较复杂,基于深度学习的中文文本纠错在实际落地的场景中仍然具有推理速度慢、纠错准确率低和假阳性高等缺点,因此中文文本纠错任务还具有非常大的研究空间。 达观数据在CCL2022汉语学习者文本纠错评测比赛的赛道一中文拼写检查(Chinese Spelling Check)任务中取得了冠军,赛道二中文语法纠错(Chinese Grammatical Error Diagnosis)任务中获得了亚军。本文基于赛道二中文语法纠错任务的内容,对比赛过程中采用的一些方法进行分享,并介绍比赛采用的技术方案在达观智能校对系统中的应用和落地。赛道一中文拼写检查的冠军方案会在后续的文章分享。
用户10103085
2022/12/22
1K0
中文语法纠错全国大赛获奖分享:基于多轮机制的中文语法纠错
你的英语不行!微软亚研自动语法纠错系统达到人类水平
用于语法纠错(GEC)的序列到序列(seq2seq)模型(Cho et al., 2014; Sutskever et al., 2014)近年来吸引了越来越多的注意力(Yuan & Briscoe, 2016; Xie et al., 2016; Ji et al., 2017; Schmaltz et al., 2017; Sakaguchi et al., 2017; Chollampatt & Ng, 2018)。但是,大部分用于 GEC 的 seq2seq 模型存在两个缺陷。第一,seq2seq 模型的训练过程中使用的纠错句对有限,如图 1(a)所示。受训练数据的限制,具备数百万参数的模型也可能无法实现良好的泛化。因此,如果一个句子和训练实例有些微的不同,则此类模型通常无法完美地修改句子,如图 1(b)所示。第二,seq2seq 模型通常无法通过单轮 seq2seq 推断完美地修改有很多语法错误的句子,如图 1(b)和图 1(c)所示,因为句子中的一些错误可能使语境变得奇怪,会误导模型修改其他错误。
机器之心
2018/07/26
5670
你的英语不行!微软亚研自动语法纠错系统达到人类水平
多项NLP任务新SOTA,Facebook提出预训练模型BART​
近日,Facebook 发表论文,提出一种为预训练序列到序列模型而设计的去噪自编码器 BART。BART 通过以下步骤训练得到:1)使用任意噪声函数破坏文本;2)学习模型来重建原始文本。BART 使用基于 Transformer 的标准神经机器翻译架构,可泛化 BERT(具备双向编码器)、GPT(具备从左至右的解码器)等近期出现的预训练模型,尽管它非常简洁。Facebook 研究人员评估了多种噪声方法,最终通过随机打乱原始句子的顺序,再使用新型文本填充方法(即用单个 mask token 替换文本段)找出最优性能。
机器之心
2019/11/05
9950
多项NLP任务新SOTA,Facebook提出预训练模型BART​
NLP教程(6) - 神经机器翻译、seq2seq与注意力机制
教程地址:http://www.showmeai.tech/tutorials/36
ShowMeAI
2022/05/10
6100
NLP教程(6) - 神经机器翻译、seq2seq与注意力机制
【论文解读】基于Transformer增强架构的中文语法纠错
语法纠错(Grammatical Error Correction, GEC)任务,旨在利用自然语言处理技术,自动识别并纠正非中文母语学习者书写的文本中所包含的语法错误,拼写错误,语序错误,标点错误等等,是自然语言处理的一项重要任务。下面这对语句就是语法纠错任务的一个示例,每个输入对应一个输出,左侧输入的是一句可能带有错误的文本,右侧输出的是纠正后的结果,句中红色的字是有修改的地方。
zenRRan
2020/04/17
2K0
【论文解读】基于Transformer增强架构的中文语法纠错
从模型到算法,详解一套AI聊天机器人是如何诞生的
您是否曾经利用 Siri、Alexa 或者 Cortana 以对话方式设置闹钟、呼叫朋友甚至是安排会议日程?相信大多数朋友和我一样,感觉虽然这些方案在日常生活与工作中能够起到一定作用,但仍然很难与之谈论一般性、特别是哲学层面的话题。 通过自然语言与机器交互属于通用型人工智能方案的基本要求之一。这一 AI 研究领域被称为对话系统、口语对话系统或者是聊天机器人。在这类场景下,机器需要能够结合对话背景为用户提供翔实的答案,而且在理想情况下应实现与人类无异的沟通效果。 但在实践当中,最后一项要求往往很难达成。不过
BestSDK
2018/03/01
4.7K0
从模型到算法,详解一套AI聊天机器人是如何诞生的
大幅提升ASR系统识别准确率:云从科技语义纠错模型解析
近些年来,随着自动语音识别(ASR)技术的发展,识别准确率有了很大的提升。但是,在ASR转写结果中,仍然存在一些对人类来说非常明显的错误。我们并不需要听音频,仅通过观察转写的文本便可发现。对这类错误的纠正往往需要借助一些常识和语法知识,甚至推理的能力。
AI科技评论
2021/04/16
1.3K0
大幅提升ASR系统识别准确率:云从科技语义纠错模型解析
谷歌开放GNMT教程:如何使用TensorFlow构建自己的神经机器翻译系统
选自谷歌 机器之心编译 参与:机器之心编辑部 近日,谷歌官方在 Github 开放了一份神经机器翻译教程,该教程从基本概念实现开始,首先搭建了一个简单的NMT模型,随后更进一步引进注意力机制和多层 LSTM 加强系统的性能,最后谷歌根据 GNMT 提供了更进一步改进的技巧和细节,这些技巧能令该NMT系统达到极其高的精度。机器之心对该教程进行简要的描述,跟详细和精确的内容请查看项目原网站。 GitHub 链接:https://github.com/tensorflow/nmt 机器翻译,即跨语言间的自动翻译,
机器之心
2018/05/09
1.8K0
谷歌开放GNMT教程:如何使用TensorFlow构建自己的神经机器翻译系统
NLP任务之中文拼写 语法纠错 介绍与综述
在很多中文NLP相关的落地场景都会涉及到文本纠错的相关技术,例如跟各种形式机器人的语音或者文字对话,或者用手机扫描相关的PDF或者图片,或者跟人聊天时用输入法打字等等,无论是通过ASR识别的语音信息,通过OCR识别得到的图片信息,还是用户真实通过输入法的文字,都有可能出现错误。这些错误会影响文本的可读性,不利于人和机器的理解,如果这些错误不加处理,会传播到后续的环节,影响后续任务的效果。常见的中文错误类型包括以下几种:
大鹅
2022/07/20
4.2K1
【TensorFlow 谷歌神经机器翻译】从零开始打造属于你的翻译系统
【新智元导读】谷歌今天公布了一个用 TensorFlow 构建神经机器翻译(NMT)系统的教程,全面解释 seq2seq 模型,并演示如何从零开始构建 NMT 翻译模型。这个教程从 NMT 的背景知识讲起,详细讲解如何构建并训练一个 NMT 模型,并提供代码,绝对有用。 机器翻译——自动在两种语言之间进行翻译的任务——是机器学习中最活跃的研究领域之一。在多种机器翻译方法中,序列到序列(“seq2seq”)模型最近取得了巨大的成功,并已经成为大多数商业翻译系统的事实上的标准,例如谷歌翻译。这是由于 seq2s
新智元
2018/03/27
2.3K0
【TensorFlow 谷歌神经机器翻译】从零开始打造属于你的翻译系统
文本纠错与BERT的最新结合,Soft-Masked BERT
1.http://www.doc88.com/p-8038708924257.html
机器学习AI算法工程
2020/07/14
1.7K0
[预训练语言模型专题] BART & MASS 自然语言生成任务上的进步
BART和MASS都是2019年发布的,面向生成任务,基于Transformer神经翻译结构的序列到序列模型。分别由Facebook 和微软亚洲研究院提出。他们都对encoder输入的屏蔽(mask)方式进行了改进,并且在生成任务的效果也都比之前有了不少提升。让我们花10分钟来一起来看看这两个模型吧。 两个模型都是以Transformer的神经翻译模型作为基础结构,而Transformer的encoder-decoder结构(图 1)的具体讲解可以参考上一篇文章。
朴素人工智能
2020/05/07
2.5K0
NLP实践!文本语法纠错模型实战,搭建你的贴身语法修改小助手 ⛵
自然语言处理(NLP)技术可以完成文本数据上的分析挖掘,并应用到各种业务当中。例如:
ShowMeAI
2022/12/02
1.3K1
NLP实践!文本语法纠错模型实战,搭建你的贴身语法修改小助手 ⛵
想研究BERT模型?先看看这篇文章
序列转换方式由基于复杂递归神经网络(RNN)和卷积神经网络(CNN)的编码器和解码器模型主导。表现最佳的模型也只是通过一个注意力机制来连接了编码器和解码器。我们提出一个新的简单网络架构——Transformer。相比表现最佳的模型,该架构仅仅基于注意力机制,完全摒弃了递归和卷积。从两个机器翻译任务的实验结果显示,Transformer的效果更优秀,同时有更好的并行性,显著的减少了训练的时间。我们的模型在WMT2014年发布的“英-德”翻译任务上达到了28.4 BLEU【注解1】,超越了该任务上现有的最好的记录2个BLEU,包括总体效果。在英-法翻译任务上,我们的模型在8块GPU上训练了3.5天,并创造了单模型最好BLEU分数——41.8。相比文献中的最佳模型,这个训练成本不高。Transformer在其它任务上也有好的泛化能力,我们将其应用于English constituency parsing(英语成分句法分析),无论在大量的训练数据上还是有限的训练数据上都获得了成功。
AI粉嫩特工队
2019/09/23
8290
想研究BERT模型?先看看这篇文章
一键式文本纠错工具,整合了BERT、ERNIE等多种模型,让您立即享受纠错的便利和效果
pycorrector: 中文文本纠错工具。支持中文音似、形似、语法错误纠正,python3开发。实现了Kenlm、ConvSeq2Seq、BERT、MacBERT、ELECTRA、ERNIE、Transformer等多种模型的文本纠错,并在SigHAN数据集评估各模型的效果。
汀丶人工智能
2023/08/13
4.9K0
一键式文本纠错工具,整合了BERT、ERNIE等多种模型,让您立即享受纠错的便利和效果
CCL2022 中文语法纠错评测
每天给你送来NLP技术干货! ---- 中文语法纠错任务(Chinese Grammatical Error Correction,CGEC)旨在自动检测并修改中文文本中的标点、拼写、语法、语义等错误,从而获得符合原意的正确句子。近年来,中文语法纠错任务越来越受到关注,也出现了一些有潜在商业价值的应用。为了推动这项研究的发展,研究者通过专家标注以及众包等形式构建一定规模的训练和测试数据,在语法检查以及语法纠错等不同任务上开展技术评测。同时,由于中文语法纠错任务相对复杂、各评测任务以及各数据集之间存在差异,
zenRRan
2022/05/18
3K0
CCL2022 中文语法纠错评测
2018 NLPCC Chinese Grammatical Error Correction 论文小结
这一段时间,笔者一直在研究语音识别后的文本纠错,而就在八月26-30日,CCF的自然语言处理和中文计算会议召开了,笔者也从师兄那里拿到了新鲜出炉的会议论文集,其中重点看的自然是其shared task2:grammatical error correction的overview以及优胜团队的论文。本文总结了优胜团队的论文并给出了一些可能的改进方向。
zenRRan
2018/10/09
2.3K0
2018 NLPCC Chinese Grammatical Error Correction 论文小结
中文文本纠错工具推荐:pycorrector
中文文本纠错工具。音似、形似错字(或变体字)纠正,可用于中文拼音、笔画输入法的错误纠正。python3开发。
致Great
2023/08/25
1.9K0
推荐阅读
相关推荐
文字语义纠错技术探索与实践
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验