前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >基于机器学习的纠错系统技术 - 智能文本纠错 API

基于机器学习的纠错系统技术 - 智能文本纠错 API

原创
作者头像
不是海碗
发布2023-04-28 11:53:47
8230
发布2023-04-28 11:53:47
举报
文章被收录于专栏:API百科

引言

在过去的几十年里,文本纠错技术已经取得了巨大的进展,从最初的基于规则的纠错系统到现在的基于机器学习的纠错系统,技术的发展已经帮助人们解决了大量的文本纠错问题,随着机器学习技术的发展,文本纠错技术也发生了重大变化。

本文将介绍一款新的基于机器学习的纠错技术,并详细列出实际的可应用场景。

工作原理

今天介绍的智能文本纠错 API 是基于机器学习的纠错系统通过分析大量的文本数据来学习语言模型,从而识别和纠正文本中的错误。这种方法不仅能识别语法和拼写错误,还能识别语境相关的错误,例如使用不当的词语。

基于机器学习的文本纠错系统通常分为两个主要部分:语言模型纠错算法

语言模型是根据大量文本数据训练得到的,可以预测一个词语在语言中的概率;纠错算法则根据语言模型的预测结果和词语的上下文信息来识别错误并纠正它们。

纠错能力

智能文本纠错技术是针对字词错误、标点、地名、专有名词、敏感信息、意识形态等进行智能校对,具体的纠错能力如下:

应用场景

当前的基于机器学习的智能文本纠错 API 已经非常成熟,并且广泛应用于各种领域,例如写作工具、手机输入法和翻译软件等,下面是一些常见的应用场景:

快速接入智能文本纠错 API

1.注册并获取智能文本纠错 API 密钥

进入 【智能文本纠错】详情页,点击【免费试用】,即可唤起注册按钮。

注册成功后,我们在页面导航菜单点击 【我的 API】进入 【访问控制】页面,即可看到平台提供的密钥。

2.调用API 接口

构建API 请求

代码语言:txt
复制
var data = "{"text":"传承和弘扬中华优秀传统文化既是增强文华自信、建设社会主义文化强国的应然之义,也是全面建设社会注意现代化国家、推进实现中华民族伟大复兴的实践前提。"}"

$.ajax({
    "url":"https://23331.o.apispace.com/text-detection/check",
    "method": "POST",
    "headers": {
        "X-APISpace-Token":"替换成平台提供的API 密钥",
        "Authorization-Type":"apikey",
        "Content-Type":"application/json"
    },
    "data": data,
    "crossDomain": true
})
    .done(function(response){})
    .fail(function(jqXHR){})
3.返回数据内容
代码语言:txt
复制
{
    "sum": 2,
    "msg": "",
    "result": [{
        "sentence": "传承和弘扬中华优秀传统文化既是增强文华自信、建设社会主义文化强国的应然之义,也是全面建设社会注意现代化国家、推进实现中华民族伟大复兴的实践前提。",
        "position": 0,
        "shareDicId": null,
        "mistakes": [
            [
                [17, 19], // 错误在句中的位置,左闭右开
                [
                    ["文化", 2, "1-1", 0] // [推荐词,推荐程度,推荐类别,命名实体标志]
                ],
                []
            ],
            [
                [46, 48],
                [
                    ["主义", 2, "1-1", 0],
                    ["主易", 2, "1-1", 0],
                    ["主意", 1, "1-1", 0]
                ],
                []
            ]
        ],
        "mistakeNum": 0
    }]
}

返回参数中 mistakes 字段详解

代码语言:txt
复制
0: 错误在句中的位置[l, r),左闭右开
1: 推荐意⻅(list)
    0: string 推荐词
    1: int 推荐程度
        1: 表⽰“低概率错误,⼀般推荐”
        2: 表⽰“⾼概率错误,强烈推荐”
        3: 系统默认敏感词
        4: ⽤⼾⾃定义敏感词
        5: ⽤⼾⾃定义错词
        6: 共享词典敏感词
        7: 共享词典错
        8: 标点符号错误
    2: 推荐类别, 格式”x-x”
        “0-x”: 默认分类 (没有对应分类)
        “1-“: 表⽰同⾳错误,建议替换
        “2-“: 常⻅谐⾳错误,建议替换
        “3-“: 遗漏字词错误,建议补充
        “4-“: 冗余字词错误,建议删减
        “5-“: 其他谐⾳、近形错误,建议替换
        “7-“: 语序错误,建议调整语序
        “8-x”: 敏感词错误,建议删减
            8-1: 未分类(默认分类)
            8-2: ⻩赌毒
            8-3: 司法、政治
            8-4: 宗教、迷信
            8-5: ⾔语 辱骂
            8-6: ⾮法信息
            8-7: 宣传、⼴告
        “9-1”: 地址归属地错误
        “10-x”:
            10-1: 中英类型错⽤
            10-2: 成对标点缺失或⽤反
            10-3: 多余标点
    3: 0/1 命名实体标志。0: ⽆命名实体;1: 有命名实体。
2: 空

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 工作原理
  • 纠错能力
  • 应用场景
  • 快速接入智能文本纠错 API
    • 1.注册并获取智能文本纠错 API 密钥
      • 2.调用API 接口
        • 3.返回数据内容
        相关产品与服务
        腾讯云 TI 平台
        腾讯云 TI 平台(TencentCloud TI Platform)是基于腾讯先进 AI 能力和多年技术经验,面向开发者、政企提供的全栈式人工智能开发服务平台,致力于打通包含从数据获取、数据处理、算法构建、模型训练、模型评估、模型部署、到 AI 应用开发的产业 + AI 落地全流程链路,帮助用户快速创建和部署 AI 应用,管理全周期 AI 解决方案,从而助力政企单位加速数字化转型并促进 AI 行业生态共建。腾讯云 TI 平台系列产品支持公有云访问、私有化部署以及专属云部署。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档