Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >文本校对工具在线公测

文本校对工具在线公测

作者头像
代码医生工作室
发布于 2022-03-07 09:17:18
发布于 2022-03-07 09:17:18
2K0
举报
文章被收录于专栏:相约机器人相约机器人

很高兴,今天能正式把我们的有一个重量级产品推出来。它是一个基于AI模型开发的文本校对工具,可以识别出文字中的丢字、漏字、冗余、乱序等问题。对于文字出错零容忍的场景下,非常有帮助。

操作界面

识别结果

该产品在2019年初开始立项,2020年下半年小有成果,2020年底开始正式使用。它一直在为我们的图书保驾护航。如今,我们把它封装成独立的线上产品。分享出去。欢迎大家使用,多提宝贵意见!

如果还想听听它背后的故事,请往下看:

产品动机

自从工作室成立以来,我们一直保持着每年至少一本图书的出版进度。在写书的过程中,我们也在不断的反思、优化,整个制作过程和编写思路。这一切的目的都是为了在提升工作效率的同时最大化的提升用户体验。

还记得第一本书出版时,勘误不断。更新了4,5版勘误,每一版都会新发现10多个错误。而后在出第二本书时,在文字校对方面下了更大的力度,收获的结果确实会比第一本好很多。然而,这种劳动密集型工作绝对不是上上之选。于是我们开发了一个文本校对工具。

该工具作用明显,每次在处理即将印刷的书稿时,都会立下汗马功劳。这使得我们后续的书籍里勘误量大大降低。同时也深得合作编辑的好评。

产品的开发过程

原始的立项版本应该是在2019年初,当时我们是由样本的加工入手,对以往的书稿进行规整。当时的架构是由我来设计,江同学开发实现的。当时的项目名称为:test001word。主要以word文档结构化提取为主,抽取不同粒度的样本。用于训练。

后来基于该样本我们训练了一套模型。大概在2019年下旬,完成了第一个模型。但效果不是很好。同时江同学由于个人原因,短期内的投入时间有限,该项目进入了缓慢发展期。

在这个缓慢发展期间,我的工作主要是针对效果不好的问题,提出各种解决的思路和可行性验证,这个期间的主要开发任务也一点点落在了我的肩上,期间我们尝试过4种以上的模型方案,每一种都经过数十次的调优和修改。在这个过程中,江同学和许同学分担了不少工作量,也非常的感谢他们。

直到2020年,终于可以迎来一个阶段性进展。没想到当时高兴的发了一条朋友圈,居然成为一个可回溯的证据。

起初只是一个代码模块,需要编写调用代码才能运行。在 后面的工作中,便开始了漫长的产品化过程。

任何成果一旦产品化,涉及的工作量都是巨大的。不仅要考虑上下游数据流的业务,还要考虑模型的性能。于是,后续的工作中,主要是设计用户使用流程、开发业务代码、调优模型性能、提升模型精度这几方面工作。期间,沈同学、丁同学也陆续加入进来,他们与我和许同学一起完成了这部分的工作。这段时间应该是比较无聊,翻了翻朋友圈,当时只发了一条。

开发势头正猛的我们在2021年年初,终于把全部的基础工作搞定了。当时就等着配合即将出版的图书一起发布产品了。

然而,世事难料,由于我的个人原因,不得不放下眼前的工作。作为这个项目的核心,我的停滞意味着整个项目的停滞!于是,整个项目也不得不再次停滞下来。

人到中年应该是背负社会责任最多的阶段,上有老,下有小,好多事情都是身不由己。创业者的艰辛,只能去体会,无法去描述。

所有的事情只是暂停,没有终止。如今,2022年到了,我们接着前行,将这款产品发布出去。希望它可以慢慢长大,不辜负团队中每个人的努力。

这只是个demo,它使用的是通版语料进行训练。如果使用专用语料训练,在专用场景下使用,误报率和准确率会更高。

另外,我们只用了一个普通的低配服务器,速度不是很快。未来在软件架构和硬件配置上,会持续投入,进行升级。速度不快的问题,未来一定会解决的。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-02-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
在 2021 年写一本 C++ 图书是一种什么体验?
以下内容来自《C++服务器开发精髓》一书的作者张远龙~~ ---- 亲爱的各位读者,我的新书《C++ 服务器开发精髓》终于终于终于与大家见面了,图书如下: 图书的封面设计很精美,当然内容一定不负众望。因出版社老师要求提供一张照片放到封面上,所以今年6 月1日儿童节去拍了一张,照片拍出来放在下面大家自己看吧。 人到中年,生活不易,没有少年时代那种懵懂与青涩,多了一份厚实与坚定了。一些想做的事情却一步步把它做成了,成为现实。昔日戏言身后事,明朝都到眼前来。所以,梦想还是要有的,还是要坚持的,即使这世界有那
博文视点Broadview
2023/05/06
3110
在 2021 年写一本 C++ 图书是一种什么体验?
心路历程:爬虫实战——从数据到产品
经过近一年的辛苦创作、编辑、等待,本书终于出版了。这种感觉有点像是十月怀胎,但没有生育时候的痛苦,只有最后得到的欣喜。现在回忆起去年接到写书的邀请,然后到纠结,再到刚开始痛苦的写作,以及最后成稿后的释然,一切都觉得是一场人生的经历。我倒是认为写书的目的不是为了赚钱,写一本书给自己,总结自己的过往,将经验传播给他人,就可以了。
贺思聪
2020/05/08
6470
心路历程:爬虫实战——从数据到产品
1024 真实故事 | 程序员口述:专科毕业差点找不到工作回老家,熬更多的夜,出版两本专著
1024 是 2 的十次方,是二进制计数的基本计量单位之一。在计算机的发展史中,在和 0/1 所代表的二进制世界里,有人用代码编织出了形形色色的数字、程序、互联网,创造出一个个神话。 ——他们就是一群可爱、低调、踏实的程序员,昵称:攻城狮、「程序猿」、爱码士。10月24日是“程序员节”,今天我们就来聊聊这群爱码士:一群爱逐技术前沿、爱追梦的人。 荔枝集团研发中心的基础架构部技术骨干吴就业给我们带来他的故事:从一个五线小城乡镇青年,一路通过自己的努力打拼在一线城市立足,成为上市公司的技术骨干,写专栏,出了两本
AI科技评论
2023/04/12
4590
1024 真实故事 | 程序员口述:专科毕业差点找不到工作回老家,熬更多的夜,出版两本专著
几经沉浮,人工智能(AI)前路何方?
如同蒸汽时代的蒸汽机、电气时代的发电机、信息时代的计算机和互联网,人工智能(AI)正赋能各个产业,推动着人类进入智能时代。
算法进阶
2022/06/01
1.2K0
几经沉浮,人工智能(AI)前路何方?
哈工大讯飞联合实验室2022年秋季实习生招聘启事
每天给你送来NLP技术干货! ---- 哈工大讯飞联合实验室(HFL)发布2022年秋季实习生招聘启事,欢迎有意申请的同学填写文章末尾的问卷应聘。 ••• 岗位:自然语言处理实习生 【工作地点】北京(海淀区软件园二期互联网创新中心) 【工作方向】前瞻技术研究、应用业务落地 【岗位职责】深入自然语言处理相关的核心技术研究及应用落地。研究方向包括但不限于篇章分析、阅读理解、问答系统、语法纠错、对话系统、预训练模型、多模态理解、多语言理解等。能够应用机器学习、深度学习等技术解决自然语言处理的相关问题。 【岗位要
zenRRan
2022/09/13
6280
哈工大讯飞联合实验室2022年秋季实习生招聘启事
技术人生 | 技术人如何打造个人品牌
编者:本文来自携程框架研发部高级经理魏晓军在内部活动中分享,介绍了其在撰写国内第一本React Native相关书籍《ReactNative入门与实战》时的经历和感想,从中我们或许可以一窥技术人该如何打造个人品牌。以下为分享的主要内容实录。
携程技术
2018/03/16
9510
技术人生 | 技术人如何打造个人品牌
ChatGPT写的书要出版/ 特斯拉创始人打脸马斯克/ 业余棋手击败申真谞陪练AI... 今日更多新鲜事在此
日报君 发自 凹非寺 量子位 | 公众号 QbitAI 大噶好,新的一周又开始啦~ 春暖花开,科技圈最近也生机勃勃(比如ChatGPT都火出圈了)。 各位在工作/踏青之余,也看和日报君一起看看科学趣闻(来精神野炊)吧! 全球首本ChatGPT撰写、AI翻译校对的图书即将出版 据《韩国经济新闻》消息,一本完全由ChatGPT撰写图书将在2月22日出版,而且这本书的翻译、校对和插图工作都由AI完成,为全球出版界首例。 该书名为《找到人生目标的45种方法》(45 Ways to Find the Purpose
量子位
2023/02/23
3650
ChatGPT写的书要出版/ 特斯拉创始人打脸马斯克/ 业余棋手击败申真谞陪练AI... 今日更多新鲜事在此
全干货!机器学习通识篇知识分享
来源:海豚数据科学实验室本文约2500字,建议阅读5分钟本文介绍了机器学习的常见知识。 机器学习定义 机器学习(Machine Learning)本质上就是让计算机自己在数据中学习规律,并根据所得到的规律对未来数据进行预测。 机器学习包括如聚类、分类、决策树、贝叶斯、神经网络、深度学习(Deep Learning)等算法。 机器学习的基本思路是模仿人类学习行为的过程,如我们在现实中的新问题一般是通过经验归纳,总结规律,从而预测未来的过程。机器学习的基本过程如下: 机器学习基本过程 机器学习发展历程 从机器
数据派THU
2022/07/04
7520
全干货!机器学习通识篇知识分享
小傅哥,一个有“副业”的码农!
小傅哥,一线互联网 Java 工程师、架构师,开发过交易、营销类项目,实现过运营、活动类项目,设计过中间件,组织过系统重构,编写过技术专利。不仅从事业务系统的开发工作,也经常做一些字节码插桩类的设计和实现,对架构的设计和落地有丰富的经验。在热衷于Java语言的同时,也喜欢研究中继器、I/O板卡、C#和PHP,是一个技术活跃的折腾者。
小傅哥
2021/05/26
6350
小傅哥,一个有“副业”的码农!
《Django企业开发实战》FAQ - 持续更新
单纯的学习 Django 提供的功能的话,看文档就够了,前提是你英文阅读还行,不过很多「残卷」的中文翻译看起来也不太省时间。当然也有人把 Django 文档做了整理,翻译成中文版,弄成书,这个另说。
the5fire
2019/05/22
2K0
《Django企业开发实战》FAQ - 持续更新
2019年 教育部产学合作协同育人项目腾讯公司项目申报指南(第二批)
为响应《国务院办公厅关于深化高等学校创新创业教育改革的实施意见》(国办发〔2015〕36号)和《国务院办公厅关于深化产教融合的若干意见》(国办发〔2017〕95号),进一步推进产学合作,产教融合,支持和鼓励高校教师和学生参与到创新创业和教育教学改革中。腾讯公司发布2019年教育部产学合作协同育人第二期项目,具体申报指南如下: 一、建设目标 在教育部高等教育司的指导下,腾讯公司在2019年教育部产学合作协同育人第二期项目中设立教学内容和课程体系改革项目、师资培训项目、实践条件和实践基地建设项目和新工科建设项
腾讯高校合作
2019/12/03
1.2K0
2019年 教育部产学合作协同育人项目腾讯公司项目申报指南(第二批)
泄露三星机密,被大量禁止,GPT怎么了 | FreeBuf咨询洞察
一边是阿里、华为、商汤等国内巨头纷纷发布ChatGPT相关产品,一边是ChatGPT泄露三星机密数据,被花旗银行、高盛、摩根大通、德意志银行等企业禁用,人工智能带来的机遇和风险就这样不期而遇。 在此背景下,FreeBuf咨询特别发布洞察报告《GPT浪潮席卷下的安全思考》,从GPT算法迭代路径入手,深入探讨以GPT为代表的算法模型可能面对的安全隐患、应对举措及未来发展态势。 报告关键发现 1. GPT-1-GPT-3发展期间参数规模呈指数级扩张,InstructGPT引入的奖励机制允许模型以较少的参数实现更优
FB客服
2023/04/12
5370
泄露三星机密,被大量禁止,GPT怎么了 | FreeBuf咨询洞察
干了这碗鸡汤:从理发店小弟到阿里P10技术大牛
MIT TR 35(MIT Technology Review 35 Innovators Under 35)——“全球 35 位 35 岁以下科技创新青年”榜单,是全球最权威的青年科技创新人才榜单之一。从1999年开始,《麻省理工科技评论》(MIT Technology Review,简称MIT TR)每年会在全球范围内寻觅最有可能改变世界、极具才华和创新精神的年轻技术人才、创新者或企业家。该榜单从影响力、创新力、进取力、未来潜力、沟通力五个维度评估,涵盖 IT(计算机、通信、网络)、生物医药、商业等领域,最终选出35位科技创新精英。
JackJiang
2018/08/29
1.4K0
拒绝空谈,和银行坐一起聊聊银行业务的数字化升级
如何将数字员工整合进入银行更多的产品和业务,在更复杂、非规则和个性化的应用场景落地?一起聊聊。 作为金融科技创新应用实践,近年来基于虚拟数字人(AI Avatar)技术的数字员工(Digital Worker),在全球银行与金融市场得到了广泛应用。2022 年 1 月,中国人民银行印发《金融科技发展规划(2022-2025 年)》,指出将数字元素注入金融服务全流程,将数字思维贯穿业务运营全链条。 数字员工凭借其在银行业务和客户服务体系中的天然功能与属性,与人类员工一同构成了金融生产力中最活跃的要素,成为银行
机器之心
2022/06/17
6940
拒绝空谈,和银行坐一起聊聊银行业务的数字化升级
言有三新书来袭,全面系统性地讲解生成对抗网络GAN原理与实践
各位同学,今天有三来发布新书了,本次新书为生成对抗网络方向,名为《生成对抗网络GAN:原理与实践》,本次书籍为我与师弟郭晓洲共同写作,也是第一本有三与人合著的书籍。
用户1508658
2023/02/06
7140
满周岁的“多多读书月”,改变了什么?
“当今世界存在一个深刻而巨大的矛盾,这就是科技进步、经济发展与人的精神道德的停滞或衰退之间的矛盾。这个矛盾越来越大、越来越尖锐。这种趋势不遏止,这个问题不解决,现代文明乃至整个人类会不可避免地走向衰亡!” 这一“警世格言”源自于日本“经营之圣”稻盛和夫的畅销书《活法》,此书出版于2004年,18年后再看这段话依然振聋发聩,“深刻而巨大的矛盾”因为科技进步和经济发展变得更加尖锐。 5G、信息流、短视频、元宇宙、无人车……科技越来越发达,人们的精神世界却愈发空虚,人类该何以自处?“阅读”是一个答案。拼多多最新发
罗超频道
2022/04/25
1.8K0
满周岁的“多多读书月”,改变了什么?
10.ChatGPT实战:10个实用技巧和窍门(10/10)
在人工智能的浪潮中,ChatGPT作为一项革命性技术,已经深入到我们日常生活和工作中。它不仅仅是一个聊天机器人,更是一个强大的工具,可以帮助我们提高工作效率、激发创造力和解决复杂问题。本文将介绍10个实用的技巧和窍门,帮助你更有效地利用ChatGPT。
正在走向自律
2024/12/18
4800
10.ChatGPT实战:10个实用技巧和窍门(10/10)
疫情还点燃了在线阅读,实体书店将死于实体?
2020年,原本准备庆祝15周年生日的单向空间,没想到新年迎接他们的是更加惨淡的营生。
刘旷
2020/03/03
6560
疫情还点燃了在线阅读,实体书店将死于实体?
频繁融资背后,蓝湖难掩工具通病?
4月19日,蓝湖宣布完成由金沙江创投领投,老股东光速中国与红杉资本中国跟投的B轮3亿元融资;5月10日,在线协作平台“蓝湖”又宣布,完成5亿人民币的C轮融资,领投方为尚未透露的某产业基金、老股东光速中国、红杉中国、金沙江创投跟投。
刘旷
2021/05/13
1.1K0
DenseNet发明者黄高:动态模型好在哪里?
自2012年至今,计算机视觉领域蓬勃发展,各种模型不断涌现,短短 8 年时间,计算机视觉领域便发生了天翻地覆的变化。那么如何看待过往变化,当下研究又如何?
AI科技评论
2021/01/08
1.1K0
DenseNet发明者黄高:动态模型好在哪里?
推荐阅读
相关推荐
在 2021 年写一本 C++ 图书是一种什么体验?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档