在自媒体网站的原创比对中,经过大数据筛选、对比,很快就能查出哪篇文章是抄袭的,哪篇文章是原创作品。那为什么如此之快呢?
因为大数据筛选比对文字信息或者图文信息要比视频快很多,也会更加有效。一篇文章在全网出现雷同篇目,原创比对程序就会通过扫描发现,进而报告给原创作者平台,平台方通知原创作者,让他们维权。其间的这种比对是非常快速的,因为大数据只是筛选文字信息,要比筛选图片信息和视频信息处理的信息要少很多,比对也更加迅速。
原创作者的文章有作者自己的语言风格和行文习惯,这个是无法复制的。只要是原版复制就会被查到,被维权。要是东拼西凑式的剽窃,也容易被查出来,只是有些自媒体平台审核不严,也就轻松放过了。还有的抄袭者属于洗稿行为,对原来的文章改头换面,进行洗稿,洗掉了原作者的语言风格,换了一副口气来说原来的事儿,难道就是宋代黄庭坚倡导的“点铁成金”的作文秘诀吗?对这一类文章,大数据筛查是不容易找出来的,只是进行关键字比对,或者引用率的计算已经大大落伍,查不出来了。
有人说,要是换了人工审核行不行?当然技术上可行,但是不能用人工审核,因为多一个人就会多一份工资,自媒体平台就会多一份支出。所以,自媒体平台方还是要进行大数据审核,比对关键字、敏感词等,连删稿都是机器完成,已经和后台的员工没什么关系了。要是删错了稿件,作者可以提交申请,等待平台方做出人工审核的处理结果。
那么,在如此不算严格的审核面前,很多自媒体作者就要胡抄八抄,因为自媒体平台对于新手是不讲原创的,新手可以肆意抄袭、剽窃、洗稿,只是平台方查不出来,或者根本就不查,让他们给平台方带来流量,有流量就能变现。平台方吃下收入的50%就算极其人道了,而非原创作者的收入却是不公开也不透明的,即使有每天的收入比对,也是不真实的,因为那些比对的程序是程序员为平台方量身打造的,对于平台方非常有利,对于个人作者就是死抠了。
而进行非原创作者的文字比对也是非常容易实现的,只是平台方不愿意这么做,谁愿意在一些蚂蚁一样的人身上投入哪怕一点钱呢?技术支持也不行,让他们肆意泛滥吧,只要能带来流量就是好的……
从这个意义上说,不是平台方不能做,而是不去做。即使很简单,也不会去做,涉及到自身利益的事,他们根本就不想做。能多赚为什么要多支出呢?
平台方比谁都清楚。
领取专属 10元无门槛券
私享最新 技术干货