近年来,人工智能技术的迅猛发展,特别是深度学习技术出现以后,让人工智能在很多方面能够接近甚至超越人类的感知能力和水平,在图像识别、语音识别等方面都产生了突破性进展。传媒行业不管是在数据积累上、还是工作模式上,都赋予了人工智能技术大显身手的广度和深度。在国际上,以彭博社为代表的先进媒体,纷纷组建技术团队,雇佣人工智能专家与编辑部合作深入研究人工智能在新闻报道中的应用。
新闻稿件的文字校对,是新闻生产发布过程中必不可少的重要环节,是保障发稿安全、维护新闻严谨性的关键防线,各大新闻机构都有自己的审校流程,至少也是三审三校。校对工作需要工作人员耐心细致、工作过程中不能有一丝疏忽,特别是涉及到领导人的稿件,更要逐字筛查。校对软件的出现,一定程度上帮助了校对人员提高工作效率,弥补因个人失误或疏忽带来的不可估量的损失。随着时代的发展和技术的进步,文字校对软件也应该变得更加聪明和便捷。
如果对一个校对软件的能力和水平进行评估,我们可以将内容检校系统分为三个典型层次,分别是:词汇级、语义级、观点级。下面分别对三代系统进行定义和说明。
第一代:词汇级检查系统
第一代检校系统主要基于计算机的存储和基本运算能力,通过长期积累大量的错词库,对稿件的文字内容进行逐字、逐词匹配,凡是与错词库中内容相匹配的,就被系统认定为文字错误,并提示给使用者。比如:“倡仪”(倡议)、“国冢”(国家)、“总埋”(总理)。在错词库累计达到一定程度的情况下,第一代检校系统能够帮助检校人员识别一些基础性的常见错误,减轻工作量,提高效率和准确度。但是,第一代检校系统存在一个致命问题,就是无法识别词语之间的错误搭配,比如:
====“彼此信赖,相互支持,书写了国际关系史上的一段假话”。====
“一段”、“假话”分别都是正确的词汇,但是在此句的语境中搭配到一起显然是错误的。第一代检校系统对此类问题无能为力,因为词与词之间的搭配组合无法穷尽,不能用简单的错词库的方式来解决,超出了第一代检校系统能力的范畴。
第二代:语义级检查系统
第二代检校系统,针对第一代系统的不足和弱点,采用人工智能技术来实现语义级别的文字检查,能够根据句子整体表达的语境识别其中的不合理搭配问题。其主要原理是通过大量学习正确语料,让计算机系统自主分析归纳语言的习惯用法、模式等,使得机器对句子形成一定的理解和判断能力,从而实现在一个句子的维度上,对字、词进行分析判断,识别其中的异常、不合理内容,达到检查校对的目的。
除了上文中提到的“一段假话”错误搭配的问题,第二代系统还能够识别更加复杂的情况。近年来,由于拼音输入法的广泛使用,选错词时有发生,比如下面两个句子:
====“而汉字是迄今为止连续使用时间最长的蚊子”====
====“台中市雾峰区1岁大简姓男童日前左眼被文字叮了一口”====
第二代系统因为是从一个句子整体出发进行分析处理的,所以能够区分出“文字”/“蚊子”是否存在误用的情况,这是第二代检校系统的突出优势。同样,计算机还能够区分一些更加复杂的情况,比如:“必须”和“必需”。
====网络并非校园欺凌法外之地,实施欺凌者必需担责。====
====河南如何考取汽车估损师,需要满足哪些必须条件?====
第三代:观点级检查系统
第三代检校系统是一种类人系统,在第二代系统的能力基础之上,还能够对稿件内容进行全面分析和理解。在全文的观点、基调的基础上,判断每句话、每个字词是否合理,是否存在观点矛盾或者逻辑不通顺的地方。比如:一篇稿件通篇都是讲某个人的正面内容,突然其中有一句话是对该人物的负面评价。因为每个句子单独看来都是通顺的,所以第二代系统对此无法识别,只有第三代系统能够像人一样判断此类的异常句子。同时,第三代系统还能够基于事前设定的观点、主题对稿件进行检查,辨别其中有悖主流价值观,或者违背常识的内容。第三代系统一旦实现,就能够在很大程度上代替人工校对的工作了。
东软集团利用在大数据人工智能方面的长期积累,将于近期推出达到语义级检查能力的内容安全检查云,敬请期待。
领取专属 10元无门槛券
私享最新 技术干货