Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >每周学点大数据 | No.50 众包应用举例

每周学点大数据 | No.50 众包应用举例

作者头像
灯塔大数据
发布于 2018-04-04 08:50:18
发布于 2018-04-04 08:50:18
1.4K0
举报
文章被收录于专栏:灯塔大数据灯塔大数据

No.50期

众包应用举例

小可:那除了维基百科之外,众包还有哪些应用呢?

Mr. 王:其实众包在业界的应用还是非常广泛的。大量的公司和网站都使用了众包算法,

有些众包算法是显性的任务分配和任务处理,也有些众包算法是隐性的。比如这种特殊的验证码

小可:哦,验证码还是很常用的,只是这个验证码中有两个单词。在登录网站时,为了防

止一些自动的脚本攻击网站,会将一个机器难以识别而人容易识别的图像文字放在登录窗口中,只要把相应的文字输进去就可以登录了。

Mr. 王:不错,但是这个验证码比较特殊,之所以使用了两个单词,是因为它有另一个用途。

在这两个单词中有一个是真的验证码,用于鉴别正在登录的是不是一个真正的人,这个真正的验证码和其他验证码并无两样;而另一个则是网站希望识别的一个模糊的或者字体比较特殊的单词,比如从古书上、破旧的文章中截取的文本片段。正由于它是比较迷糊的,如果用机器来做文本模式识别的话,就会比较困难,错误率会比较高;但是作为一个人来说,看清楚这个单词还是非常容易的。网站巧妙地利用了这一点,在用户输入验证码的同时,还帮助网站进行了图像文本识别。

小可:真是一举两得啊,而且其充分发挥了用户的力量,让用户不知不觉间就帮助网站完

成了文本识别工作。

Mr. 王:这是一个图像文本识别的例子。在机器翻译中,众包也有很好的应用。时下,机

器翻译的质量还没有达到一个非常高的水平,我们常用的翻译平台虽然能够将单词翻译对,但是句式结构往往处理得不够好,语序颠倒的情况时有发生。另外,对于一些意思很多的词汇来说,在特定的语境下识别一个词的意思就很困难了。目前,不仅机器翻译仍然面临着一些困难,而且用机器对人工或者机器翻译好的文章进行翻译质量评价也是很困难的。

小可:嗯,不仅翻译难,而且评价也难。所以,我们就要发挥人的力量,让人进行翻译和评估。

Mr. 王:没错,语言之间的翻译具有一个特点,就是翻译专家和母语的非专家对一个翻译

过来的句子的认识是差不多的,毕竟不是专家的人也可以凭借其对母语的了解和熟悉去评价一个句子是不是通顺等。所以不妨将机器翻译或者翻译评价的工作交给那些非专家、网络上的人来做,通过对母语的语感他们就能够很好地评价翻译效果,让人来执行通常会比机器来做好得多。

Mr. 王:其实在图像识别中,众包的例子也有很多。比如我在网上挂一个图,问这是不是“哈工大校园”。

这样的工作让机器来做其实很麻烦,因为哈工大校园里面有各种各样的风景,图像模式非

常多,甚至在天气阴晴、季节、相机曝光度和拍摄角度等不同的时候,完全相同的风景都会呈现出不同的效果,让机器来识别难度就非常大。但如果由人来做,就容易多了,不论是什么季节,不论是白天还是夜晚,只要是哈工大的学生或者是去过哈工大的人往往就可以非常容易地辨识出这个图景是不是属于哈工大校园,这种识别的准确度要比机器高很多。

Mr. 王:另外,还有一个很有趣的例子,如果让计算机来识别两张照片是不是同一个人,

可能难度就比较大。当今虽然人脸识别技术已经日趋成熟,但是由于光线角度不同、人所处的环境不同,或者是发型、妆容变化等,甚至一张是人年轻时的照片,另一张是中年时的照片,都会给计算机识别带来很大的麻烦。

小可:嗯,没错,看看两张照片是不是一个人,对人来说还是挺容易的。即使是年轻和年

长时的照片,我们也可以通过观察一些特征,分辨出他们是不是一个人。

Mr. 王:嗯,众包还可以应用在图片分类上。比如这张图片:

小可一眼就认出了图片中的车,说:这不是大众的迈腾嘛!

Mr. 王笑着说:你看,如果让计算机来识别这张图片的话,它可能充其量会告诉你这是一

辆汽车的图片,但是如果众包出去,比如交给你,你不仅能看出这是一辆轿车的图片,连它具体是什么品牌、什么型号都可以识别出来,识别的信息精确程度远大于计算机的能力。在实际应用中,众包分类系统可能就会问用户,这是不是一种交通工具啊?用户就会回答“是”;这是不是一辆汽车啊?用户回答“是”;是什么牌子的车啊?……,在这个过程中就像是一棵决

策树一样,通过非常简单的步骤,利用人的知识和识别能力,有效地完成了对图像的识别分类任务。

计算机视觉方面,众包也是有很多应用的。比如给出两张绘画的图片,这两张图片的差

异很大,但是我们希望知道这两张图片的绘画风格是不是一样的。

对计算机来说,识别两张图片的颜色是不是一致、描述这两张图片里面的是不是同一件东

西或许做起来还可以,但是对于绘画风格这样的概念,是很难让计算机实现的,因为绘画风格这种东西的确很抽象,两张使用不同的色彩、完全不同的绘画,可能同属一个绘画风格,或者出自一位画家之手。

小可:的确,这样的工作由人来做的确可以相对轻松地完成,毕竟人对这种抽象概念的认

识还是要强于计算机很多的。如果这个人略懂艺术的话,那么对于绘画风格这样的抽象概念也就可以在很短的时间内进行很有效的分辨。

Mr. 王:其实在数据库中,也有众包的例子。比如模糊匹配问题。假如有一个人叫张三,

在有些数据库记录中,可能被记作“张三”“、Zhang San”“、San Zhang”“、S.Zhang”“、Zhang,San”等,即使两个名字是不同的形式,他们也可能是同一个人。在一些情况下让计算机来做匹配也是有难度的,计算机往往会通过一些形如字符串匹配这样的方法来判断两个名字是不是一个人,这样仍然不够准确。另外,很多名字相同的人,反而不是一个人,不过如果人参与识别的话,判断两条记录是不是一个人,就可以通过比较名字、在现实世界的一定范围内是不是有重名的人,或者是看看各关键字相关的记录,比如头衔、住址这样的信息进行匹配。这些内容有时也是模糊的,比如同一个地址的描述方式有很多,但人依然容易识别它们,可以通过各种模糊逻辑处理方法来解决匹配问题。所以有些系统会借助人的力量来完成这种工作,让人参与到数据库记录的匹配和连接中去,实现更高精度和更好效果的连接。在这方面典型的例子是CrowdDB,如果你感兴趣,可以查阅关于CrowdDB 的一些论文。

内容来源:灯塔大数据 文章编辑:柯一

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-08-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 灯塔大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
每周学点大数据 | No.77 众包算法实践——成为众包工人
编者按:灯塔大数据将每周持续推出《从零开始学大数据算法》的连载,本书为哈尔滨工业大学著名教授王宏志老师的扛鼎力作,以对话的形式深入浅出的从何为大数据说到大数据算法再到大数据技术的应用,带我们在大数据技术的海洋里徜徉~每周五定期更新 上期回顾&查看方式 在上一期,我们学习了众包算法实践——认识 AMT的相关内容。PS:了解了上期详细内容,请在自定义菜单栏中点击“灯塔数据”—“技术连载”进行查看;或者滑到文末【往期推荐】查看 No.77 众包算法实践——成为众包工人 小可 :再来看一个任务。咦,为什么这个任务无
灯塔大数据
2018/04/03
2.2K0
每周学点大数据 | No.77 众包算法实践——成为众包工人
每周学点大数据 | No.8基础数据结构之线性表
No.8期 基础数据结构之线性表 Mr. 王:为了以后的知识描述方便,这里简单介绍一下数据结构的概念。数据结构是一个广泛存在于计算机科学中的概念。曾经有一位计算机界的大师说:“数据结构+算法=程序”。随着计算机科学的发展,虽然现在这个理论被认为不够全面,但也足以说明数据结构的重要性。 小可:这么说,数据结构拥有和算法同样重要的地位了!那么数据结构究竟是什么呢? Mr. 王:在客观世界中,信息是多种多样的,有数字、颜色、图形、文本、声音等。但是这些信息“本身”并不能直接存储在计算机中,而是要以数据的形式存储
灯塔大数据
2018/04/09
9070
每周学点大数据 | No.8基础数据结构之线性表
每周学点大数据 | No.57基于内容的推荐方法
NO.57 基于内容的推荐方法 Mr. 王:最常见的一种方法就是基于内容的推荐。基于内容的推荐思想非常的清晰、简单,就是向用户推荐与他评分高(喜欢)项目相类似的项目。 小可:嗯,很多电影网站根据用户的
灯塔大数据
2018/04/04
7100
每周学点大数据 | No.57基于内容的推荐方法
每周学点大数据 | No.3算法设计与分析理论
No.3期 算法设计与分析理论 在计算机科学中,研究算法的设计和评价算法“好坏”的分支,称为算法设计与分析理论。它研究如何去设计解决问题的算法,同时给出一个对算法在计算机中执行的时间和空间效率,评价这个算法是不是足够快、占用的空间足够小。到目前为止,高速的 CPU 和高速大容量的寄存器、缓存和内存依然是很昂贵的计算资源。另外,CPU 的运算速度和内存容量相对目前的大数据来说依然是不够的。所以设计高效率的算法,一方面是为了节约时间;另一方面也是为了节省金钱。从另一个方面讲,如果计算机的速度非常快、内存非常大
灯塔大数据
2018/04/09
8390
每周学点大数据 | No.3算法设计与分析理论
每周学点大数据 | No.71 单词出现行计数
No.71 单词出现行计数 Mr. 王 :我们可以试试用 Python 终端来实现一个最简单的功能——单词出现行计数。 首先创建一个文件,在里面写一段话。 小可 :我就在 Spark 文件夹里写一个名
灯塔大数据
2018/04/03
7370
每周学点大数据 | No.71 单词出现行计数
每周学点大数据 | No.69 多机配置
No.69 多机配置 Mr. 王:在关于 Hadoop 内容介绍的最后,我们来谈谈如何把 Hadoop 配置在多台计算机上。 小可 :嗯,到目前为止,所有的程序还都仅仅运行在一台计算机上。 Mr. 王
灯塔大数据
2018/04/03
7160
每周学点大数据 | No.69 多机配置
每周学点大数据 | No.9递归——以阶乘为例
No.9期 递归——以阶乘为例 Mr. 王:我们介绍一个在计算机算法设计和程序设计中都非常常见的概念——递归。 小可:什么是递归呢? Mr. 王:从程序设计的角度来说,递归就是一个函数,在它的定义中调用了它本身。从算法的角度来说,递归就是一个算法对于一个输入的求解需要对这个算法在更小输入上求解的情况。 小可:这个说法听起来有点复杂啊。 Mr. 王:我们举个例子来说明吧。你一定听说过有一个数学概念叫作阶乘。 小可:我知道,阶乘就是把一个正整数一直乘以它的值减1,直到乘数为1,比如5!=5×4×3×2×1。推
灯塔大数据
2018/04/08
8680
每周学点大数据 | No.44 MapReduce 图算法概述
No.43期 MapReduce 图算法概述 Mr. 王:MapReduce 作为一种经典的并行编程框架,可以用于解决很多问题,包括一些图论问题。在客观世界中,很多问题都可以抽象为图论问题。前面我们提到过如何用磁盘算法来解决一些图论问题,现在我们尝试用MapReduce 框架,以并行计算的观点来解决一些图论问题。 还是先举个例子吧。你会经常去使用一些社交网络吧。 小可:是的,现在通过社交网络,我可以非常方便地与同学联系。社交网络上人与人之间的好友连接关系就可以抽象成一个图。 Mr. 王笑着说:有没有想过
灯塔大数据
2018/04/04
1.2K0
每周学点大数据 | No.44  MapReduce 图算法概述
每周学点大数据 | No.17最小生成树
No.17期 最小生成树(一) Mr. 王:我们再来讲一个时间亚线性算法——最小生成树问题。这里先简单介绍一下树的概念。 小可:那什么是树呢? Mr. 王:树的简单定义,就是一个没有回路的连通无向图。
灯塔大数据
2018/04/08
1K0
每周学点大数据 | No.17最小生成树
每周学点大数据 | No.36并行算法
No.36期 ‍并行算法‍ Mr. 王:‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍今天我们来谈一个新的话题——并行算法。 小可:并行?并行是不是说,一个任务由多个人同时做呢? Mr. 王:通俗地讲是这样的。有很多问题,当数据规模比较大时,如果单独由一台计算机来做,就会变得费时费力,我们希望可以将一个问题交由多台计算机进行处理和解决。这就是我们要研究的并行算法。 小可:那具体要怎么做呢?如果把整个任务分开给多台计算机来做,我们就要想办法把任务分割开,还要对它们提交的结果进行综合,这对于一些复杂的问题还是有一定难度
灯塔大数据
2018/04/08
7180
每周学点大数据 | No.36并行算法
每周学点大数据 | No.1何谓大数据
No.1期 带你认识大数据 咚咚咚。 一天下午,王老师的门被敲响了。 Mr. 王:请进。 门被轻轻地推开了,随后被有礼貌地关上了。 Mr. 王:你就是小可吧? 小可:是的,王老师您好,我就是前几天与您联系的那个学生,我想学习些大数据方面的知识。 Mr. 王:好啊,咱们可以一起讨论,看你不太面熟,你是计算机专业的学生吗? 小可:我是计算机专业的大一新生,会用程序设计语言完成一些很简单的程序设计,不过到目前为止我还没有学习过任何关于大数据算法的课程,我也并不了解什么是算法设计与分析,就连算法是什么都不太清楚,
灯塔大数据
2018/04/09
9160
每周学点大数据 | No.1何谓大数据
每周学点大数据 | No.22 外排序
No.22期 外排序(一) Mr. 王:接下来我们看一看在磁盘算法中一个比较典型的例子——外排序。 小可:那什么又是外排序呢? Mr. 王:外排序是相对内排序而言的,当要排序的数据量无法被全部装进内存时,我们就需要用到外排序,此时有大量的数据被存在硬盘里,无法直接进行操作,必须先以块为单位读进内存中。 为了更好地理解大数据中的归并排序,我们先从内存中的归并排序说起。该算法被称为“归并排序”或者“多路归并排序”,其基本思想就是,先将整个数组划分为多组,保证每一组内是有序的,然后相邻的两组之间进行“归
灯塔大数据
2018/04/08
1.1K0
每周学点大数据 | No.22 外排序
每周学点大数据 | No.46 MapReduce 平台的局限
No.46期 MapReduce 平台的局限 Mr. 王:前面我们讲了许多基于MapReduce 的并行算法,现在我们讨论一个新话题——超越MapReduce 的并行大数据处理。虽然MapReduce 可以有效地解决很多并行计算的问题,但是经过前面对MapReduce 的使用我们也发现了一些常见的问题;这些问题用MapReduce 解决虽然是可行的,但是实现和执行起来多少会有一些不方便。 小可:嗯,MapReduce 虽然是一个很好用的平台,但是也不是完美的。 Mr. 王:的确,时至今日,Google
灯塔大数据
2018/04/04
7940
每周学点大数据 | No.46  MapReduce 平台的局限
每周学点大数据 | No.67 Hadoop 实践案例——记录去重
No.67 Hadoop 实践案例——记录去重 Mr. 王:现在我们看一个和 WordCount 很相似,在实际中应用也很多的例子——记录去重。 小可 :嗯,从字面上理解就是将重复的数据记录去除吧? Mr. 王 :是的,就是如此。这个工作在实际的应用中是非常常见的,在进行数据管理时,不论是录入记录错误,还是新旧数据的原因,都是非常容易出现重复的记录的。很多时候,重复的记录会对我们进行个数统计等操作产生影响,造成统计结果错误。另外,出现重复记录的数据集合可能会非常大,单靠人工挑重,或者是靠简单的单机去查找会
灯塔大数据
2018/04/04
7850
每周学点大数据 | No.67 Hadoop 实践案例——记录去重
每周学点大数据 | No.19全0 数组的判定
No.19期 全0 数组的判定 Mr. 王:接下来我们讲一类时间亚线性判定算法,先来举个例子吧。假设有一个数组A,其中包含0 和1,我们需要判定数组里面的元素是否全是0,如果全是0,则输出“是”;否则输出“否”。依然要求时间复杂度为o(n)。 小可:还是一样访问不到所有的数据啊,可是这回不一样了。在最优化问题中,虽然得不到最优解,但是可以返回一个近似解,只要知道这个近似解和最优解差多少就可以了。这种判定问题只有一个是或者否,如果还是差不多的话,岂不是答错了吗? Mr. 王:对于判定问题,则换了
灯塔大数据
2018/04/08
8430
每周学点大数据 | No.19全0 数组的判定
每周学点大数据 | No.49 维基百科的策略中体现的“众包算法”的思想
No.48期 众包的定义 Mr. 王:平常遇到不知道的概念或者名词,你一般会怎么办? 小可:有维基百科啊,我去查一查就知道了。对于一个名词,维基百科能给出很多的解释,而且这些解释往往非常准确和专业。
灯塔大数据
2018/04/04
8260
每周学点大数据 | No.49 维基百科的策略中体现的“众包算法”的思想
每周学点大数据 | No.31拓扑排序
No.31期 拓扑排序 Mr. 王:很好,你还记得这个问题。接下来我们来讨论另一种磁盘中的大数据算法策略,叫作时间前向处理方法。在这种策略中,我会讲解求解最大独立集的方法。先介绍一个时间前向独立集的其
灯塔大数据
2018/04/08
7870
每周学点大数据 | No.31拓扑排序
每周学点大数据 | No.2大数据的特点、应用和算法
No.2期 大数据的特点、应用和算法 一、大数据的特点和应用 Mr. 王:大数据具有较大的数据量,和一般的数据相比,其具有如下一些特点。 —在数据量上,大数据是通过各种设备产生的海量数据,其数据规模极
灯塔大数据
2018/04/09
9590
每周学点大数据 | No.2大数据的特点、应用和算法
每周学点大数据 | No.58协同过滤模型(上)
NO.58 协同过滤模型(上) Mr. 王:为了能够有效地利用其他用户的评价来进行更有效的推荐,人们提出了协同过滤的推荐模型。 小可:那什么是协同过滤模型呢?它又有哪些优势呢? Mr. 王:先说说协同过滤的思想。既然认为他人对一个项目的评价是有一定价值的,我们就要尝试去利用他人对一个项目的评分来考察该项目的好坏。但是这里存在一个问题,就是他人认为不好的项目不一定是我们认为不好的,或者说他人的评价标准不一定符合我们的评价标准。我们要去考虑,如何能够让那些和某个用户评价标准相似的人来评价该用户没有评价过的东西。
灯塔大数据
2018/04/04
7210
每周学点大数据 | No.58协同过滤模型(上)
每周学点大数据 | No.60磁盘算法实践
NO.60 磁盘算法实践 Mr. 王:前面讨论了很多理论方面的内容,从今天开始,我们研究如何从实践的角度去进行磁盘算法、并行算法和众包算法的设计。 小可:嗯,我也很想实际写几个程序去操作前面提过的算法。 Mr. 王:那么我们就从磁盘算法的实践开始吧。 小可:我们平时使用的计算机上的数据很多都是以文件形式进行存储的,那么是不是只要借助C 语言读写文件的函数就可以操作磁盘了呢? Mr. 王:文件的确是存储在磁盘上的,读写文件的操作也的确会产生磁盘读写。不过这样做大量的操作都是操作系统帮助我们完成的,对磁盘读写
灯塔大数据
2018/04/04
8710
每周学点大数据 | No.60磁盘算法实践
推荐阅读
相关推荐
每周学点大数据 | No.77 众包算法实践——成为众包工人
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档