Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >每周学点大数据 | No.49 维基百科的策略中体现的“众包算法”的思想

每周学点大数据 | No.49 维基百科的策略中体现的“众包算法”的思想

作者头像
灯塔大数据
发布于 2018-04-04 06:28:32
发布于 2018-04-04 06:28:32
7960
举报
文章被收录于专栏:灯塔大数据灯塔大数据

No.48期

众包的定义

Mr. 王:平常遇到不知道的概念或者名词,你一般会怎么办?

小可:有维基百科啊,我去查一查就知道了。对于一个名词,维基百科能给出很多的解释,而且这些解释往往非常准确和专业。

Mr. 王:好,今天我们就来聊聊维基百科。

小可惊讶地说:哦?维基百科还和大数据算法有关?

Mr. 王笑着说:当然有关了,维基百科的策略体现了“众包算法”的思想。

小可:众包算法?什么是众包算法啊?我以前好像听说过有一个说法叫“外包”,就是做一些自己不太容易完成的问题时,会找一些其他的人来做。这个众包和外包有什么联系吗?

Mr. 王:有相似之处,但不太一样,所谓“外包”是把工作交给其他的人来做,但是这些人往往是确定的、已知的这样一群雇员;而众包则不同,虽然它也是把事情交给别人来做,但是这群人往往是不固定的、参与量很大的一群未知的参与者。

小可:原来如此!

Mr. 王:你听说过开源软件吗?

小可:我知道的,一些程序员会在像GitHub 这样的网站上公开自己软件的源代码,看到代码的人都可以使用和编辑它们。他们拥有自己的社区,会在上面分享自己的一些源代码,同时也就可以基于其他人做的一些前置工作,来更快捷地完成自己的开发工作。有时候程序员还会在开源社区贴出自己的代码,请求别人来帮忙完善。

Mr. 王:其实众包的思想和开源软件很像,只是众包的应用更加广泛一些,它不局限于程序开发,它会将更丰富的、不限于开发的任务交给一些其他的人去完成。就像开源软件一样,究竟哪些人会来完成这些任务,是任务的提出者并不知道的。

小可:可是为什么要采取众包这种方法呢?

Mr. 王:众包算法的问题往往具有这样一个特点,就是人来完成这个问题很容易,但机器做起来却比较困难,或者这个任务难以由少量的人来完成,适合由大量的人参与到其中,充分发挥大众的力量,使得任务更高效、准确地完成,这样的问题非常适合使用众包算法进行解决。

小可:这样就可以发挥人在完成任务上的优势了,这的确是一种非常好的思想。

Mr. 王:想一想,维基百科是不是也利用了众包的思想呢?

小可:的确,维基百科将词条贴到网上,让网络上的人来丰富其解释,是一种众包方法的体现。

Mr. 王:世界上成千上万的人参与建设维基百科的词条,也就建成了一个数据量庞大而且质量相当高的知识库。这些人将自己的知识张贴到维基百科上的同时,也能利用维基百科来解决一些自己不太清楚的问题。在像维基百科这样的平台中,很多它的贡献者同时也是其受益者。

小可:嗯。发挥网友们的力量,最后在平台上达成一种人人为我、我为人人的效果。

Mr. 王:好,说了这么多关于众包的内容,我们还是尝试给众包下一个定义。众包指的是协调一个群体(一般是互联网上的一大群人)来做微工作(也就是每个人做出一点贡献),完成软件或者单个人难以完成的任务。

小可:嗯,但是协调互联网上的一大群人,还确实有一定难度呢。

Mr. 王:所以在实际的众包应用中,就要设计一系列的机制和方法来指导和协调群体的行为,如何做到这一点,还值得众包方法的设计者深思。

Mr. 王:这里还有一个概念叫作人本计算,众包和人本计算还是有很大的交集的,但众包和人本计算并不等价。众包在很大程度上利用了人本计算;而人本计算虽然往往是用人来做计算的主体,但人本计算完成的任务可以是大任务,也可以是微任务。众包让一个人做的任务往往是微任务,而合并起来完成的就是大任务。另外,众包算法将任务配发给的人往往是任务的提出者所不知道的,谁来完成这个任务,任务的提出者并不会事先了解或者指定。

下期精彩预告:

经过学习,我们了解了一下维基百科的策略体现的“众包算法”思想。在下一期中,我们将进一步了解众包在业界的应用。更多精彩内容,敬请关注灯塔大数据,每周五不见不散呦!

内容来源:灯塔大数据 文章编辑:柯一

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-08-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 灯塔大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
每周学点大数据 | No.77 众包算法实践——成为众包工人
编者按:灯塔大数据将每周持续推出《从零开始学大数据算法》的连载,本书为哈尔滨工业大学著名教授王宏志老师的扛鼎力作,以对话的形式深入浅出的从何为大数据说到大数据算法再到大数据技术的应用,带我们在大数据技术的海洋里徜徉~每周五定期更新 上期回顾&查看方式 在上一期,我们学习了众包算法实践——认识 AMT的相关内容。PS:了解了上期详细内容,请在自定义菜单栏中点击“灯塔数据”—“技术连载”进行查看;或者滑到文末【往期推荐】查看 No.77 众包算法实践——成为众包工人 小可 :再来看一个任务。咦,为什么这个任务无
灯塔大数据
2018/04/03
2.1K0
每周学点大数据 | No.77 众包算法实践——成为众包工人
每周学点大数据 | No.57基于内容的推荐方法
NO.57 基于内容的推荐方法 Mr. 王:最常见的一种方法就是基于内容的推荐。基于内容的推荐思想非常的清晰、简单,就是向用户推荐与他评分高(喜欢)项目相类似的项目。 小可:嗯,很多电影网站根据用户的
灯塔大数据
2018/04/04
6860
每周学点大数据 | No.57基于内容的推荐方法
每周学点大数据 | No.53数据挖掘概述与分类
NO.53 数据挖掘概述 Mr. 王:今天我们来讨论一个新的话题,你听说过数据挖掘吗? 小可:这个名字倒是挺有意思的啊,不过数据是一种抽象的、虚拟的概念,要怎么去挖掘呢? Mr. 王:数据挖掘是时下非常热门的一个领域。在大数据时代的背景下,数据量变得非常大,不过我们现在处于一种拥有的数据量大而“知识”匮乏的状态。 小可:这个“数据”和“知识”分别怎么解释呢? Mr. 王:比如某商家存有大量会员的信息数据,现在公司有一种新产品,他们想知道这些会员中哪些人有更大的可能性去购买这种新产品,从而有效地制定下一步营销
灯塔大数据
2018/04/04
5870
每周学点大数据 | No.53数据挖掘概述与分类
每周学点大数据 | No.36并行算法
No.36期 ‍并行算法‍ Mr. 王:‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍今天我们来谈一个新的话题——并行算法。 小可:并行?并行是不是说,一个任务由多个人同时做呢? Mr. 王:通俗地讲是这样的。有很多问题,当数据规模比较大时,如果单独由一台计算机来做,就会变得费时费力,我们希望可以将一个问题交由多台计算机进行处理和解决。这就是我们要研究的并行算法。 小可:那具体要怎么做呢?如果把整个任务分开给多台计算机来做,我们就要想办法把任务分割开,还要对它们提交的结果进行综合,这对于一些复杂的问题还是有一定难度
灯塔大数据
2018/04/08
6730
每周学点大数据 | No.36并行算法
每周学点大数据 | No.18最小生成树(二)
No.18期 最小生成树(二) Mr. 王:接下来我们讨论一般的情况。在一般的情况中,我们先定义一些量以方便讨论。 Gi :G 中包含所有权重小于i 的边的子图。 Ci :Gi 中的连通分量数。 令β
灯塔大数据
2018/04/08
7540
每周学点大数据 | No.18最小生成树(二)
每周学点大数据 | No.48 计算子图同构
No.48期 计算子图同构 Mr. 王:我们再来看一个例子——计算子图同构。这个问题给定(节点有标签)数据图G和查询图P,找到G 中和P 同构的子图。这是一个经典的NP 完全问题。 小可:那求解岂不是很困难? Mr. 王:在实际情况下,虽然数据图G 会比较大,可能有上G 个节点,但查询图P 一般会比较小,因为查询图一般是由查询需求表现出来的,查询需求往往没有那么大。 小可:如果依然利用Pregel 平台的思想来解决问题,要怎么做呢? Mr. 王:考虑到Pregel 平台具有面向节点编程的思想,我们就要考虑
灯塔大数据
2018/04/04
1.2K0
每周学点大数据 | No.48 计算子图同构
每周学点大数据 | No.10何谓大数据算法
No.10期 何谓大数据算法 Mr. 王:下面我们就来谈谈大数据算法与一般算法的区别和联系。 小可:好。 Mr. 王:前面我们讲了如何评价一个算法,在相对比较小的数据规模下,我们往往可以接受多项式时间算法。但是当数据量很大时,很多小数据量上我们能够在可以接受的时间内解决问题的方法,也都变得不再可以接受。虽然有些算法是多项式算法,但是它的高阶项指数却是非常大的,导致当数据规模大起来时,它的增长速度会变得非常快。对于较大的数据量,资源约束和时间约束都变得相对很苛刻,我们要对可以接受的时间界限进行重新思考。 小
灯塔大数据
2018/04/08
8870
每周学点大数据 | No.46 MapReduce 平台的局限
No.46期 MapReduce 平台的局限 Mr. 王:前面我们讲了许多基于MapReduce 的并行算法,现在我们讨论一个新话题——超越MapReduce 的并行大数据处理。虽然MapReduce 可以有效地解决很多并行计算的问题,但是经过前面对MapReduce 的使用我们也发现了一些常见的问题;这些问题用MapReduce 解决虽然是可行的,但是实现和执行起来多少会有一些不方便。 小可:嗯,MapReduce 虽然是一个很好用的平台,但是也不是完美的。 Mr. 王:的确,时至今日,Google
灯塔大数据
2018/04/04
7560
每周学点大数据 | No.46  MapReduce 平台的局限
每周学点大数据 | No.59协同过滤模型(下)
NO.58 协同过滤模型(下) Mr. 王:是的,前面的那种加权平均的形式,我们是可以直接利用的,其中的量稍作修改即可: 此时式中,Sij 表示的是i 和j 两种项目的相似度。j 就是来自x 评价过的
灯塔大数据
2018/04/04
7360
每周学点大数据 | No.59协同过滤模型(下)
每周学点大数据 | No.9递归——以阶乘为例
No.9期 递归——以阶乘为例 Mr. 王:我们介绍一个在计算机算法设计和程序设计中都非常常见的概念——递归。 小可:什么是递归呢? Mr. 王:从程序设计的角度来说,递归就是一个函数,在它的定义中调用了它本身。从算法的角度来说,递归就是一个算法对于一个输入的求解需要对这个算法在更小输入上求解的情况。 小可:这个说法听起来有点复杂啊。 Mr. 王:我们举个例子来说明吧。你一定听说过有一个数学概念叫作阶乘。 小可:我知道,阶乘就是把一个正整数一直乘以它的值减1,直到乘数为1,比如5!=5×4×3×2×1。推
灯塔大数据
2018/04/08
8260
每周学点大数据 | No.42 Hash join
No.42期 Hash join Mr. 王:那我们就来看看 Hash join 具体是怎么做的吧。 两个表直接拿过来,我们不对其做任何排序和预处理。对这两个表进行一些随机分割,然后 Mapper 会去读取这些分割好的表块,并将它们划分为 Hash 桶。最后这些 Hash 桶根据相应的 Hash 值归入相应的 Reducer 中。 在 Reducer 中,将归入一个 Reducer 中的两个表的表块合并成一个表。于是每个 Reducer 的输入对应的就是相同的 Hash 值,因此就可以放到同一个Merg
灯塔大数据
2018/04/04
7490
每周学点大数据 | No.42 Hash join
每周学点大数据 | No.58协同过滤模型(上)
NO.58 协同过滤模型(上) Mr. 王:为了能够有效地利用其他用户的评价来进行更有效的推荐,人们提出了协同过滤的推荐模型。 小可:那什么是协同过滤模型呢?它又有哪些优势呢? Mr. 王:先说说协同过滤的思想。既然认为他人对一个项目的评价是有一定价值的,我们就要尝试去利用他人对一个项目的评分来考察该项目的好坏。但是这里存在一个问题,就是他人认为不好的项目不一定是我们认为不好的,或者说他人的评价标准不一定符合我们的评价标准。我们要去考虑,如何能够让那些和某个用户评价标准相似的人来评价该用户没有评价过的东西。
灯塔大数据
2018/04/04
6900
每周学点大数据 | No.58协同过滤模型(上)
每周学点大数据 | No.44 MapReduce 图算法概述
No.43期 MapReduce 图算法概述 Mr. 王:MapReduce 作为一种经典的并行编程框架,可以用于解决很多问题,包括一些图论问题。在客观世界中,很多问题都可以抽象为图论问题。前面我们提到过如何用磁盘算法来解决一些图论问题,现在我们尝试用MapReduce 框架,以并行计算的观点来解决一些图论问题。 还是先举个例子吧。你会经常去使用一些社交网络吧。 小可:是的,现在通过社交网络,我可以非常方便地与同学联系。社交网络上人与人之间的好友连接关系就可以抽象成一个图。 Mr. 王笑着说:有没有想过
灯塔大数据
2018/04/04
1.2K0
每周学点大数据 | No.44  MapReduce 图算法概述
每周学点大数据 | No.47 BSP 模型下的单源最短路径
No.47期 BSP 模型下的单源最短路径 我们先来举个例子吧。单源最短路径也是一种很典型的图论问题,前面我们提到过,就是求解从一个源点到各个节点的最短距离,有时带上求解最短路径。我们来看看如何“把
灯塔大数据
2018/04/04
1.3K0
每周学点大数据 | No.47 BSP 模型下的单源最短路径
每周学点大数据 | No.2大数据的特点、应用和算法
No.2期 大数据的特点、应用和算法 一、大数据的特点和应用 Mr. 王:大数据具有较大的数据量,和一般的数据相比,其具有如下一些特点。 —在数据量上,大数据是通过各种设备产生的海量数据,其数据规模极
灯塔大数据
2018/04/09
9390
每周学点大数据 | No.2大数据的特点、应用和算法
每周学点大数据 | No.35缩图法(二)
No.35期 缩图法(二) Mr. 王:现在我们一步一步来分析。首先,每加入一条边,都会构成一个新的连通分量,或者在已有的连通分量上增加一个点,这意味着每一个强连通分量的大小至少为 2。 由此可知,每
灯塔大数据
2018/04/08
7890
每周学点大数据 | No.35缩图法(二)
每周学点大数据 | No.3算法设计与分析理论
No.3期 算法设计与分析理论 在计算机科学中,研究算法的设计和评价算法“好坏”的分支,称为算法设计与分析理论。它研究如何去设计解决问题的算法,同时给出一个对算法在计算机中执行的时间和空间效率,评价这个算法是不是足够快、占用的空间足够小。到目前为止,高速的 CPU 和高速大容量的寄存器、缓存和内存依然是很昂贵的计算资源。另外,CPU 的运算速度和内存容量相对目前的大数据来说依然是不够的。所以设计高效率的算法,一方面是为了节约时间;另一方面也是为了节省金钱。从另一个方面讲,如果计算机的速度非常快、内存非常大
灯塔大数据
2018/04/09
8190
每周学点大数据 | No.3算法设计与分析理论
每周学点大数据 | No.22 外排序
No.22期 外排序(一) Mr. 王:接下来我们看一看在磁盘算法中一个比较典型的例子——外排序。 小可:那什么又是外排序呢? Mr. 王:外排序是相对内排序而言的,当要排序的数据量无法被全部装进内存时,我们就需要用到外排序,此时有大量的数据被存在硬盘里,无法直接进行操作,必须先以块为单位读进内存中。 为了更好地理解大数据中的归并排序,我们先从内存中的归并排序说起。该算法被称为“归并排序”或者“多路归并排序”,其基本思想就是,先将整个数组划分为多组,保证每一组内是有序的,然后相邻的两组之间进行“归
灯塔大数据
2018/04/08
1.1K0
每周学点大数据 | No.22 外排序
每周学点大数据 | No.6算法的分析之易解问题和难解问题
No.6期 算法的分析之易解问题和难解问题 小可:嗯,我懂了。可是您前面说现在的计算机在模型上都可以称作图灵机,这个要如何理解呢? Mr. 王:你能思考这个问题是非常好的。其实现在电子计算机可以解决的所有问题,都可以用图灵机解决,就用2+3 这个例子,我们一开始将“算式”写在纸带上,相当于“输入”;图灵机的执行过程相当于计算机对问题进行处理;留在纸带上的结果相当于“输出”;状态转换图,相当于计算机程序;纸带在执行过程中相当于内存,读写头一部分是CPU,同时也是读写内存的设备。 小可恍然大悟,说:这么一说,
灯塔大数据
2018/04/09
9820
每周学点大数据 | No.6算法的分析之易解问题和难解问题
每周学点大数据 | No.1何谓大数据
No.1期 带你认识大数据 咚咚咚。 一天下午,王老师的门被敲响了。 Mr. 王:请进。 门被轻轻地推开了,随后被有礼貌地关上了。 Mr. 王:你就是小可吧? 小可:是的,王老师您好,我就是前几天与您联系的那个学生,我想学习些大数据方面的知识。 Mr. 王:好啊,咱们可以一起讨论,看你不太面熟,你是计算机专业的学生吗? 小可:我是计算机专业的大一新生,会用程序设计语言完成一些很简单的程序设计,不过到目前为止我还没有学习过任何关于大数据算法的课程,我也并不了解什么是算法设计与分析,就连算法是什么都不太清楚,
灯塔大数据
2018/04/09
8820
每周学点大数据 | No.1何谓大数据
推荐阅读
相关推荐
每周学点大数据 | No.77 众包算法实践——成为众包工人
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档