首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

潘绥铭:生活是如何被篡改为数据的?

编者按:

互联网时代,信息大爆炸引来大数据的盛行,对大数据的分析和拔高也在不经意间甚嚣尘上。

但数据本身不能表达现实生活中的所有细枝末节,人的生活无法量化更无法脱离其实时背景加以考量,主观建构的存在更使得数据无法完全解释人的行为,故而数据可以作为参考,但绝不可视为无所不包的唯一参考。

作者潘绥铭,现任中国人民大学性社会学研究所所长、社会学系教授、博士生导师;主要作品《存在与荒谬——中国地下性产业考察》、《神秘的圣火——性的社会史》。

近年来,对于大数据崇拜已经出现了盲目崇拜,就是无质疑、不反思地跟风颂扬和无限拔高。但是,大数据真的如此万能以至于可以取代各种非量化的人文社会研究吗?

大数据最值得质疑的,既不是其定义,也不是其功能或意义,以及方法论层次上的“以相关分析取代因果分析”,而是“一切皆可量化” 这个核心口号和基本理论。

它表述了大数据的三层意思。

其一,没有量化,就没有数据,更不可能有什么大数据。

其二,物质世界当然是可以被量化的,但是如果仅限于此,那么所谓的大数据就仅仅是数量的增加,性质毫无改变,纯属炒作。

其三,现在的大数据之所以被崇拜,要害其实只有一点:

把人类的行为及其结果,也给量化了,而且号称无所不包。

这样一来,大数据的性质就变了,从自然科学侵入到人文社会研究,这就不仅仅是一个研究工具的问题,而是一个认识论的根本问题。

那么在操作的层次上,人类无限丰富的生活实践,在被“唯科学主义”改造成“数据”的过程中,究竟发生了什么?

1

现实生活被裁剪

大数据崇拜者极力鼓吹“4V”(规模大、种类多、高速度、高价值),却故意回避了一个根本的问题:

在最开始收集到的,就是可以用来分析的数据吗?

在社会学的问卷调查中,这是有可能做到的;但是在所谓的大数据中,却绝对不可能。因为大数据并不是研究者主动去收集的人类行为及其结果,而是五花八门的所谓“客观记录”,是人类生活中微乎其微的那一部分“可获得信息”,例如上网活动所留下的痕迹、监控记录等。

可是人尽皆知,在人类活动的全部信息中,可获得的要远远少于不可获得的。

后者最典型的就是人类的一切精神活动的信息,在可预见的未来,依然无法获得的且无法监测。

这样一来,所谓大数据所获得的信息,首先是极端片面;其次是漫无边际;第三是支离破碎;第四是毫无意义;根本不可能直接用于任何量化的分析。

那么,这样的信息怎么才能转化为可分析的数据呢?

首先是必须加以“界定”,就是保留什么和舍弃什么;其次是进行“分类”,就是把什么归属于什么;第三步是加以“定义”,就是给某类信息赋予特定的人类意义;最后一步则是“赋值”,就是把不同的定义转换为可计算的数值。

以上网活动的痕迹为例,大数据的生产者,怎么来界定那些痕迹是有意的还是无意的、闲置的还是凝视的、主动寻找的还是被引导而来的?

界定之后,到底是根据停留时间长短还是活动的频率,来制造分类?为什么将“活跃”定义为“需求”?“需求”又被赋值成什么?从“不需求”到“强需求”的不同赋值之间,究竟是什么样的数量关系?

显而易见,在这个四部曲的过程中,依然是研究者自己在主观地、人为地、强制地“整理”那些“可获得信息”,将人类生活的痕迹,篡改为自己的世界观和价值观所能接受的“数据”。

这就意味着,所谓的大数据,其实并未超出“小数据”原有的局限性:裁剪生活,撕碎人生;将把整体生存的“人”,视为一堆杂乱的零碎。

因此,大数据其实并不是在帮助人类思考,而是企图取代和控制人类的生活经验,是人工智能的噩兆。

2

社会情境被忽视

有人已经发现,大数据记录的都是单独个人的行为,无法发现不同行为者之间的关系;但是,在这个现实世界里,难道真的存在一种与他人毫无关系的个人行为吗?难道个人的一切行为,不都是在一定的人际关系中,才会产生和带来某种结果吗?

社会不是个人的简单集合,而是人们通过各种关系有机地组织起来的。

同时,人们又是在特定的社会环境中做出各种行为的,不可能天马行空,独往独来。因此,人类活动留下的一切痕迹,必定蕴含着无限丰富的社会内容。

如果舍弃之,那么不管什么样的数据,不仅是浮光掠影,而且必定是盲人摸象。

每一个人都在特定的社会中,一点一点地成长为“此时此景中的此人”,然后才会做“此因此果的此行为”。这是每个人的社会历史建构过程,其中最重要的就是我们的一切社会背景、生活状况和成长经历。

可是这一切,往往仅仅存在于我们自己的经验与记忆之中;往往难于言表,更往往无法记录。

从“客观监测”的角度来说,根本就是“风过无痕”。那么,就算毫无隐私,就算监测可以天罗地网,所谓大数据的信息源又是从何而来的呢?

因此,对于了解人类生活而言,大数据其实根本就是空中楼阁。

如上所述,这样的批评还是很中肯的:“数据不懂社交、不懂背景,会制造出更多噪音,遗漏真正有价值的东西。大数据无法解决大问题。”

3

主体建构被抹煞

“大数据崇拜者”往往不敢承认:在人类生活中还有一种现象,叫做“主体建构”。即人们对于自己的行为所做出的解释,很可能与监测者的解释大相径庭,甚至背道而驰。

那么,在大数据监测到的人类的行为中,它究竟是如何分辨出其中主体建构的成分呢?首先,以网购的大数据为例,即使收集到全部的上网痕迹,而且全都数字化地一览无余,那如何知道这是监测对象的真实想法?

其次,人类有“自我呈现”的天赋,即表演。那么如何筛除被监测对象的表演?

第三,这些数据是否经历了被监测对象的认可,无核实且漠视主体意愿的数据如何呈现真实意志?

即使是某些询问对方意愿而获得的数据,尚且存在着这样一个问题:对方是否具有足够的能力来表述自己的意愿?

我们不能忽视无意识行为的广泛存在,更不应该否认:

人类的一切行为痕迹,无论多么海量,依然不能容纳和表述人类的全部生活意义。

总而言之,一切试图用自然科学或者数字化来了解人类及其社会的尝试,都无法否定人类“主体建构”的重要性,结果都必然将真实的生活阉割。

因此,大数据所获得的一切“发现”,其实只是部分人对他人生活的描述。而他人既不知道自己被描述了,也没有渠道去修正这种描绘。结果,大数据就变成一帮技术分子所构建起来的新的认知霸权。

4

生活意义被取消

人文社会研究的至少两千年历史告诉我们:

人类的一切行为,不仅蕴含着他们的人生意义,而且是为了追求其人生意义而行动的。这是人与物的根本区别。

可是,大数据所谓的一切“可记录的痕迹”,如果没有获得对方的主诉,那么就不可能包含该行为意义的信息。例如,一切上网活动,行为主体都不会表述自己为了寻求什么才这样做的,也不可能表达出这样做带来了什么样的价值与意义。

那么,该如何确定被监测者在不同的渠道中,在不同的情境之中,都会做出同样的选择?

交通监控录像、医疗记录、通讯记录等等,都足以号称自己是“大数据”。但所有这些数据,都仅仅是对人们生活中的零散的侧面的记录。

因此,这样的“大数据”再怎么大,也无法解决以下一系列常识性的问题:

首先,人在生活的某个侧面里的表现,与他/她的整个人格与人生,难道不存在紧密的关联吗?

其次,人类生活的各个侧面之间,难道不是相互影响着的吗?

第三,任何一个人的生活,难道不是被社会、文化、历史等因素制约着吗?

如此这般,数据越大,岂不是错误越大?

5

原罪就是原罪

本文所论述的一切,其实都是来自人文社会研究中,久已存在的对于“量化研究”的批评。大数据崇拜是这种思潮的最新表现,只不过是披上了更为光鲜亮丽的外衣。

在基督教教义中,原罪与生俱来,背负终身,不能通过人自己的救赎而被消除。

很可惜,量化研究也是如此。无论其技术手段如何发达,无论其数据多么大,一旦应用于人文社会研究,其缺陷与弊病就无法从根本上避免。

说到底,“大数据崇拜”,其实就是“唯科学主义”在人类历史面前一败涂地后的末日哀鸣。

但这并不意味着量化研究和大数据毫无可取之处,本文只表达三层意思:

首先,它们都不能质疑更不能取代各种非量化的人文社会研究;

其次,只有对这些先天缺陷进行深刻反思,并且予以充分展示的量化研究,才有资格在人文社会研究中保留一席之地;

第三,两种研究就像是两条铁轨,缺一不可,但又平行延伸,永不交叉。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191105A09UZ200?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券