首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >每周学点大数据 | No.49 维基百科的策略中体现的“众包算法”的思想

每周学点大数据 | No.49 维基百科的策略中体现的“众包算法”的思想

作者头像
灯塔大数据
发布于 2018-04-04 06:28:32
发布于 2018-04-04 06:28:32
8140
举报
文章被收录于专栏:灯塔大数据灯塔大数据

No.48期

众包的定义

Mr. 王:平常遇到不知道的概念或者名词,你一般会怎么办?

小可:有维基百科啊,我去查一查就知道了。对于一个名词,维基百科能给出很多的解释,而且这些解释往往非常准确和专业。

Mr. 王:好,今天我们就来聊聊维基百科。

小可惊讶地说:哦?维基百科还和大数据算法有关?

Mr. 王笑着说:当然有关了,维基百科的策略体现了“众包算法”的思想。

小可:众包算法?什么是众包算法啊?我以前好像听说过有一个说法叫“外包”,就是做一些自己不太容易完成的问题时,会找一些其他的人来做。这个众包和外包有什么联系吗?

Mr. 王:有相似之处,但不太一样,所谓“外包”是把工作交给其他的人来做,但是这些人往往是确定的、已知的这样一群雇员;而众包则不同,虽然它也是把事情交给别人来做,但是这群人往往是不固定的、参与量很大的一群未知的参与者。

小可:原来如此!

Mr. 王:你听说过开源软件吗?

小可:我知道的,一些程序员会在像GitHub 这样的网站上公开自己软件的源代码,看到代码的人都可以使用和编辑它们。他们拥有自己的社区,会在上面分享自己的一些源代码,同时也就可以基于其他人做的一些前置工作,来更快捷地完成自己的开发工作。有时候程序员还会在开源社区贴出自己的代码,请求别人来帮忙完善。

Mr. 王:其实众包的思想和开源软件很像,只是众包的应用更加广泛一些,它不局限于程序开发,它会将更丰富的、不限于开发的任务交给一些其他的人去完成。就像开源软件一样,究竟哪些人会来完成这些任务,是任务的提出者并不知道的。

小可:可是为什么要采取众包这种方法呢?

Mr. 王:众包算法的问题往往具有这样一个特点,就是人来完成这个问题很容易,但机器做起来却比较困难,或者这个任务难以由少量的人来完成,适合由大量的人参与到其中,充分发挥大众的力量,使得任务更高效、准确地完成,这样的问题非常适合使用众包算法进行解决。

小可:这样就可以发挥人在完成任务上的优势了,这的确是一种非常好的思想。

Mr. 王:想一想,维基百科是不是也利用了众包的思想呢?

小可:的确,维基百科将词条贴到网上,让网络上的人来丰富其解释,是一种众包方法的体现。

Mr. 王:世界上成千上万的人参与建设维基百科的词条,也就建成了一个数据量庞大而且质量相当高的知识库。这些人将自己的知识张贴到维基百科上的同时,也能利用维基百科来解决一些自己不太清楚的问题。在像维基百科这样的平台中,很多它的贡献者同时也是其受益者。

小可:嗯。发挥网友们的力量,最后在平台上达成一种人人为我、我为人人的效果。

Mr. 王:好,说了这么多关于众包的内容,我们还是尝试给众包下一个定义。众包指的是协调一个群体(一般是互联网上的一大群人)来做微工作(也就是每个人做出一点贡献),完成软件或者单个人难以完成的任务。

小可:嗯,但是协调互联网上的一大群人,还确实有一定难度呢。

Mr. 王:所以在实际的众包应用中,就要设计一系列的机制和方法来指导和协调群体的行为,如何做到这一点,还值得众包方法的设计者深思。

Mr. 王:这里还有一个概念叫作人本计算,众包和人本计算还是有很大的交集的,但众包和人本计算并不等价。众包在很大程度上利用了人本计算;而人本计算虽然往往是用人来做计算的主体,但人本计算完成的任务可以是大任务,也可以是微任务。众包让一个人做的任务往往是微任务,而合并起来完成的就是大任务。另外,众包算法将任务配发给的人往往是任务的提出者所不知道的,谁来完成这个任务,任务的提出者并不会事先了解或者指定。

下期精彩预告:

经过学习,我们了解了一下维基百科的策略体现的“众包算法”思想。在下一期中,我们将进一步了解众包在业界的应用。更多精彩内容,敬请关注灯塔大数据,每周五不见不散呦!

内容来源:灯塔大数据 文章编辑:柯一

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-08-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 灯塔大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
每周学点大数据 | No.51 众包的特点
NO.50 众包特点 Mr. 王:我们讨论了这么多众包的例子,现在来研究一下众包的一些特点。你先来说说,一个众包算法需要由哪些部分组成? 小可:首先要有一批请求任务的人;其次要有一群完成任务的人;还应该有一个管理任务的平台。请求任务的人把任务发布到平台上,平台会去搜寻有兴趣来做这些任务的人,然后这些工作者将答案返回给平台。平台收集了大量的答案之后,还要将答案交给提交任务的人。 Mr. 王满意地说:总结得不错,这些提交任务的人,我们一般称之为请求者。而这些完成任务的人,我们称之为工人。整个结构梳理得很清楚,不
灯塔大数据
2018/04/04
1.2K0
每周学点大数据 | No.50 众包应用举例
No.50期 众包应用举例 小可:那除了维基百科之外,众包还有哪些应用呢? Mr. 王:其实众包在业界的应用还是非常广泛的。大量的公司和网站都使用了众包算法, 有些众包算法是显性的任务分配和任务处理,也有些众包算法是隐性的。比如这种特殊的验证码: 小可:哦,验证码还是很常用的,只是这个验证码中有两个单词。在登录网站时,为了防 止一些自动的脚本攻击网站,会将一个机器难以识别而人容易识别的图像文字放在登录窗口中,只要把相应的文字输进去就可以登录了。 Mr. 王:不错,但是这个验证码比较特殊,之所以使用了两个
灯塔大数据
2018/04/04
1.4K0
每周学点大数据 | No.52众包算法例析
NO.52 众包算法例析 小可:讨论了这么多,我还是想通过一个具体的众包例子来了解一下众包算法。 Mr. 王:好,我们就从计算机的角度用具体的例子来分析一下众包算法。通过我们前面讨论的内容,你能不能想
灯塔大数据
2018/04/04
1.5K0
每周学点大数据 | No.52众包算法例析
每周学点大数据 | No.77 众包算法实践——成为众包工人
编者按:灯塔大数据将每周持续推出《从零开始学大数据算法》的连载,本书为哈尔滨工业大学著名教授王宏志老师的扛鼎力作,以对话的形式深入浅出的从何为大数据说到大数据算法再到大数据技术的应用,带我们在大数据技术的海洋里徜徉~每周五定期更新 上期回顾&查看方式 在上一期,我们学习了众包算法实践——认识 AMT的相关内容。PS:了解了上期详细内容,请在自定义菜单栏中点击“灯塔数据”—“技术连载”进行查看;或者滑到文末【往期推荐】查看 No.77 众包算法实践——成为众包工人 小可 :再来看一个任务。咦,为什么这个任务无
灯塔大数据
2018/04/03
2.2K0
每周学点大数据 | No.77 众包算法实践——成为众包工人
每周学点大数据 | No.76 众包算法实践——认识 AMT
本文为灯塔大数据原创内容,欢迎个人转载至朋友圈,其他机构转载请在文章开头标注 编者按:灯塔大数据将每周持续推出《从零开始学大数据算法》的连载,本书为哈尔滨工业大学著名教授王宏志老师的扛鼎力作,以对话的形式深入浅出的从何为大数据说到大数据算法再到大数据技术的应用,带我们在大数据技术的海洋里徜徉~每周五定期更新 上期回顾&查看方式 在上一期,我们学习了Spark 实践案例——PageRank的相关内容。PS:了解了上期详细内容,请在自定义菜单栏中点击“灯塔数据”—“技术连载”进行查看;或者滑到文末【往期推荐】
灯塔大数据
2018/04/03
1.8K0
每周学点大数据 | No.76 众包算法实践——认识 AMT
每周学点大数据 | No.57基于内容的推荐方法
NO.57 基于内容的推荐方法 Mr. 王:最常见的一种方法就是基于内容的推荐。基于内容的推荐思想非常的清晰、简单,就是向用户推荐与他评分高(喜欢)项目相类似的项目。 小可:嗯,很多电影网站根据用户的
灯塔大数据
2018/04/04
7020
每周学点大数据 | No.57基于内容的推荐方法
每周学点大数据 | No.5算法的分析之图灵机
No.5期 算法的分析之图灵机 小可:那计算机科学有没有对易解和难解问题进行一个相对严格的界定呢? Mr. 王:有的,这里既然提到了多项式算法和易解难解问题,那么我们就简单来谈一谈NP完全性的问题,这有助于对后面一些问题的理解。真正的NP 完全性讨论和复杂度归约是比较复杂的主题,一般要到硕士生阶段才会接触,这里我们只简单谈谈。提到NP完全性,我们先要了解前面提到过的“图灵机”。 小可:我也很好奇,这个“图灵机”究竟是什么呢? Mr. 王:想要理解图灵机,需要具有一定的自动机理论基础,最好先了解一下有穷自动
灯塔大数据
2018/04/09
8350
每周学点大数据 | No.5算法的分析之图灵机
每周学点大数据 | No.10何谓大数据算法
No.10期 何谓大数据算法 Mr. 王:下面我们就来谈谈大数据算法与一般算法的区别和联系。 小可:好。 Mr. 王:前面我们讲了如何评价一个算法,在相对比较小的数据规模下,我们往往可以接受多项式时间算法。但是当数据量很大时,很多小数据量上我们能够在可以接受的时间内解决问题的方法,也都变得不再可以接受。虽然有些算法是多项式算法,但是它的高阶项指数却是非常大的,导致当数据规模大起来时,它的增长速度会变得非常快。对于较大的数据量,资源约束和时间约束都变得相对很苛刻,我们要对可以接受的时间界限进行重新思考。 小
灯塔大数据
2018/04/08
9030
每周学点大数据 | No.36并行算法
No.36期 ‍并行算法‍ Mr. 王:‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍今天我们来谈一个新的话题——并行算法。 小可:并行?并行是不是说,一个任务由多个人同时做呢? Mr. 王:通俗地讲是这样的。有很多问题,当数据规模比较大时,如果单独由一台计算机来做,就会变得费时费力,我们希望可以将一个问题交由多台计算机进行处理和解决。这就是我们要研究的并行算法。 小可:那具体要怎么做呢?如果把整个任务分开给多台计算机来做,我们就要想办法把任务分割开,还要对它们提交的结果进行综合,这对于一些复杂的问题还是有一定难度
灯塔大数据
2018/04/08
7070
每周学点大数据 | No.36并行算法
每周学点大数据 | No.48 计算子图同构
No.48期 计算子图同构 Mr. 王:我们再来看一个例子——计算子图同构。这个问题给定(节点有标签)数据图G和查询图P,找到G 中和P 同构的子图。这是一个经典的NP 完全问题。 小可:那求解岂不是很困难? Mr. 王:在实际情况下,虽然数据图G 会比较大,可能有上G 个节点,但查询图P 一般会比较小,因为查询图一般是由查询需求表现出来的,查询需求往往没有那么大。 小可:如果依然利用Pregel 平台的思想来解决问题,要怎么做呢? Mr. 王:考虑到Pregel 平台具有面向节点编程的思想,我们就要考虑
灯塔大数据
2018/04/04
1.3K0
每周学点大数据 | No.48 计算子图同构
每周学点大数据 | No.2大数据的特点、应用和算法
No.2期 大数据的特点、应用和算法 一、大数据的特点和应用 Mr. 王:大数据具有较大的数据量,和一般的数据相比,其具有如下一些特点。 —在数据量上,大数据是通过各种设备产生的海量数据,其数据规模极
灯塔大数据
2018/04/09
9530
每周学点大数据 | No.2大数据的特点、应用和算法
每周学点大数据 | No.53数据挖掘概述与分类
NO.53 数据挖掘概述 Mr. 王:今天我们来讨论一个新的话题,你听说过数据挖掘吗? 小可:这个名字倒是挺有意思的啊,不过数据是一种抽象的、虚拟的概念,要怎么去挖掘呢? Mr. 王:数据挖掘是时下非常热门的一个领域。在大数据时代的背景下,数据量变得非常大,不过我们现在处于一种拥有的数据量大而“知识”匮乏的状态。 小可:这个“数据”和“知识”分别怎么解释呢? Mr. 王:比如某商家存有大量会员的信息数据,现在公司有一种新产品,他们想知道这些会员中哪些人有更大的可能性去购买这种新产品,从而有效地制定下一步营销
灯塔大数据
2018/04/04
6030
每周学点大数据 | No.53数据挖掘概述与分类
每周学点大数据 | No.75 Spark 实践案例——PageRank
本文为灯塔大数据原创内容,欢迎个人转载至朋友圈,其他机构转载请在文章开头标注 编者按:灯塔大数据将每周持续推出《从零开始学大数据算法》的连载,本书为哈尔滨工业大学著名教授王宏志老师的扛鼎力作,以对话的形式深入浅出的从何为大数据说到大数据算法再到大数据技术的应用,带我们在大数据技术的海洋里徜徉~每周五定期更新 上期回顾&查看方式 在上一期,我们学习了Spark 的核心操作——Transformation 和 Action的相关内容。PS:了解了上期详细内容,请在自定义菜单栏中点击“灯塔数据”—“技术连载”进行
灯塔大数据
2018/04/03
1.2K0
每周学点大数据 | No.75 Spark 实践案例——PageRank
每周学点大数据 | No.6算法的分析之易解问题和难解问题
No.6期 算法的分析之易解问题和难解问题 小可:嗯,我懂了。可是您前面说现在的计算机在模型上都可以称作图灵机,这个要如何理解呢? Mr. 王:你能思考这个问题是非常好的。其实现在电子计算机可以解决的所有问题,都可以用图灵机解决,就用2+3 这个例子,我们一开始将“算式”写在纸带上,相当于“输入”;图灵机的执行过程相当于计算机对问题进行处理;留在纸带上的结果相当于“输出”;状态转换图,相当于计算机程序;纸带在执行过程中相当于内存,读写头一部分是CPU,同时也是读写内存的设备。 小可恍然大悟,说:这么一说,
灯塔大数据
2018/04/09
1K0
每周学点大数据 | No.6算法的分析之易解问题和难解问题
每周学点大数据 | No.1何谓大数据
No.1期 带你认识大数据 咚咚咚。 一天下午,王老师的门被敲响了。 Mr. 王:请进。 门被轻轻地推开了,随后被有礼貌地关上了。 Mr. 王:你就是小可吧? 小可:是的,王老师您好,我就是前几天与您联系的那个学生,我想学习些大数据方面的知识。 Mr. 王:好啊,咱们可以一起讨论,看你不太面熟,你是计算机专业的学生吗? 小可:我是计算机专业的大一新生,会用程序设计语言完成一些很简单的程序设计,不过到目前为止我还没有学习过任何关于大数据算法的课程,我也并不了解什么是算法设计与分析,就连算法是什么都不太清楚,
灯塔大数据
2018/04/09
9060
每周学点大数据 | No.1何谓大数据
每周学点大数据 | No.44 MapReduce 图算法概述
No.43期 MapReduce 图算法概述 Mr. 王:MapReduce 作为一种经典的并行编程框架,可以用于解决很多问题,包括一些图论问题。在客观世界中,很多问题都可以抽象为图论问题。前面我们提到过如何用磁盘算法来解决一些图论问题,现在我们尝试用MapReduce 框架,以并行计算的观点来解决一些图论问题。 还是先举个例子吧。你会经常去使用一些社交网络吧。 小可:是的,现在通过社交网络,我可以非常方便地与同学联系。社交网络上人与人之间的好友连接关系就可以抽象成一个图。 Mr. 王笑着说:有没有想过
灯塔大数据
2018/04/04
1.2K0
每周学点大数据 | No.44  MapReduce 图算法概述
每周学点大数据 | No.46 MapReduce 平台的局限
No.46期 MapReduce 平台的局限 Mr. 王:前面我们讲了许多基于MapReduce 的并行算法,现在我们讨论一个新话题——超越MapReduce 的并行大数据处理。虽然MapReduce 可以有效地解决很多并行计算的问题,但是经过前面对MapReduce 的使用我们也发现了一些常见的问题;这些问题用MapReduce 解决虽然是可行的,但是实现和执行起来多少会有一些不方便。 小可:嗯,MapReduce 虽然是一个很好用的平台,但是也不是完美的。 Mr. 王:的确,时至今日,Google
灯塔大数据
2018/04/04
7780
每周学点大数据 | No.46  MapReduce 平台的局限
每周学点大数据 | No.35缩图法(二)
No.35期 缩图法(二) Mr. 王:现在我们一步一步来分析。首先,每加入一条边,都会构成一个新的连通分量,或者在已有的连通分量上增加一个点,这意味着每一个强连通分量的大小至少为 2。 由此可知,每
灯塔大数据
2018/04/08
8120
每周学点大数据 | No.35缩图法(二)
每周学点大数据 | No.3算法设计与分析理论
No.3期 算法设计与分析理论 在计算机科学中,研究算法的设计和评价算法“好坏”的分支,称为算法设计与分析理论。它研究如何去设计解决问题的算法,同时给出一个对算法在计算机中执行的时间和空间效率,评价这个算法是不是足够快、占用的空间足够小。到目前为止,高速的 CPU 和高速大容量的寄存器、缓存和内存依然是很昂贵的计算资源。另外,CPU 的运算速度和内存容量相对目前的大数据来说依然是不够的。所以设计高效率的算法,一方面是为了节约时间;另一方面也是为了节省金钱。从另一个方面讲,如果计算机的速度非常快、内存非常大
灯塔大数据
2018/04/09
8330
每周学点大数据 | No.3算法设计与分析理论
每周学点大数据 | No.59协同过滤模型(下)
NO.58 协同过滤模型(下) Mr. 王:是的,前面的那种加权平均的形式,我们是可以直接利用的,其中的量稍作修改即可: 此时式中,Sij 表示的是i 和j 两种项目的相似度。j 就是来自x 评价过的
灯塔大数据
2018/04/04
7520
每周学点大数据 | No.59协同过滤模型(下)
推荐阅读
相关推荐
每周学点大数据 | No.51 众包的特点
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档