本篇文章尝试回答两个问题。第一个问题是如何保证从企业或机构中的泄露数据中不会关联用户的身份信息。第二个问题是如何保障企业或机构在正常经营中能够拿到必要的身份数据。这两个问题是一对矛盾体,从而引述出去中心化身份的必要性。
有大量的文章对去中心化身份的历史发展和实现原理做了非常充分的介绍,而且为了佐证去中心化身份的必然性,树立了中心化企业或机构为假想敌,虽合情合理却并不有用。原因在于这些高级手段(故事)离普通用户的生活太远,所以很难产生实在的影响。不过,有件事情和用户的切身利益是高度有关的,那就是企业或机构的数据泄露。如果只是一些生产经营活动产生的有关企业自身利益的数据,咱们普通人也不会关心。但若是这些泄露数据和我们个人身份信息(PII)密切相关,那估计没人坐得住了。
2017 年,美国三大征信机构之一的艾克飞(Equifax)遭到黑客攻击,导致 1.47 亿用户的个人信息泄露,有不法之徒趁机利用他人的信用卡记录开办信用卡,然后刷卡不还钱,这对整个美国社会的信用体系造成了巨大的危害。结果是经过近两年的调查、扯皮、诉讼后,Equifax 与美国联邦贸易委员会终于在2019年7月份达成和解,同意拿出最高 4.25 亿美元用以赔偿受影响用户。可见,用户隐私数据泄露不但影响个人,还会让企业面临巨额罚款,甚至扩大到社会层面。
事实上,互联网泄露用户隐私数据的事件不胜枚举。例如,2018 年 Facebook 泄露 8700 万用户信息。同年,华住 5 亿条数据泄露含 2.4 亿条开房记录。而 2020 年愚人节当天,万豪酒店又爆出泄露 520 万客户信息的事件。把自己的隐私曝光在互联网上是我们不愿意接受的事情,而且我们也无法评估这些泄露数据会带来什么样的社会影响。
既然泄露用户隐私的代价巨大,那么企业或者机构不去收集或保存用户隐私数据不就万事大吉了?可我们知道生活是具体的。不管是企业还是机构,收集或保存这部分数据都是为利益和用途所驱动的,还有一些必须满足的监管要求。以互联网企业为例,在免费的商业模式下,用户基数就是它们的生命线,比竞争对手更了解用户就越能留住用户,所以不难理解互联网企业要尽可能多地收集用户的数据。于是,一个有趣的问题出现了——如何处理和使用海量的用户数据和用户无关。
不论是出于主动(Facebook 授权剑桥分析公司访问 5000 万用户的个人信息)还是被动(艾克飞遭黑客攻击泄露 1.47 亿用户个人信息),包括数据处理权、知情权、数据安全承诺、被遗忘权在内的用户权利都被剥夺得一干二净。在欧盟 GDPR 法律出现之前,或许一切都还可以得过且过,不过当下,很多企业和机构再去收集和保存个人隐私数据时就必须谨慎行事,否则面临的将是巨额的罚款。
当一件事情具备高风险,例如:受罚。按照人类厌恶风险的天性,通常会采取规避的手段。规避风险意味着如果预期收益明显低于风险带来的损害,宁可不做这件事。在企业或机构收集和保存用户隐私数据的上下文中,并非每个企业或机构都要对用户进行精心画像,对于这部分而言,不去收集和保存用户隐私数据是明智的。不过,对于必要的信息,如监管要求的 KYC 流程,企业可以通过第三方 KYC 机构完成,通过移交责任的方式,摆脱潜在的风险。然而,对于其它一些企业或机构,精准的用户画像是它们的生命线,如金融和保险机构,那么就必须单独收集和保存用户隐私数据。
上述视角是从企业或机构出发的。可是对于用户而言,他们最迫切的需求是不要泄露我的隐私数据,或者至少在用作它途时,务必经过自己的同意。
这会演变成一场相互推诿的局面。用户想要使用企业或机构提供的在线服务;某些企业或机构要想获得用户数据;用户应允但是要求自己的隐私数据要妥善保管好;企业或机构会本能地排斥这种风险,所以要明确划清权责边界;用户不明所以地接受了条款。结果出了隐私泄露问题,用户遭受损失,于是要求赔偿,企业或机构则依据条款拒绝或者承担极为有限的责任。调查、扯皮和诉讼的场景还会不断重复上演。
其实,我们细细分析不难发现企业或机构同用户是在进行一场博弈。原本用户想要免费服务,而企业或机构想要用户数据,两者一拍而合。现在,用户要求自己的数据要妥善保管,企业或机构想要规避风险。用户还要求自己的数据未经同意不得使用,而相对地,企业或机构想要减少使用用户数据的成本,双方因此出现了矛盾。
我们很难判断谁对谁错,就像逻辑上“多数人的民主”会出现悖论一样。这个时候,权责要对等,用户要承担一部分保管自己数据的职责,企业和机构让渡一些访问数据方便性的权利,这样才能达成稳定的平衡。
图1 用户和企业关于数据诉求的对比
吴军博士在作品《智能时代》中强调保护隐私是靠大数据长期挣钱的必要条件。他和未来学家凯文凯利在硅谷地区分别对社交网络的用户做过到底是在乎自己隐私还是希望获得更多便利性的调查,结果表明用户在心理上保持五五开,追求隐私和便利性之间的平衡,然而实际行动中,用户还是放弃了隐私以换取便利性。各类 APP 和社交产品更是推波助澜,只求便利而不顾及大家的隐私。在分析原因的时候,吴军提出大众不在意隐私可能是因为一来不知道技术会侵犯隐私,二来是抱着侥幸心理,三是以为隐私暴露不会对自己产生危害。然而事实上,隐私一旦暴露会很容易被损害,比如:大数据杀熟。面对这个问题,除了使用另外一种技术来修补,最好的方式是约束对方的权利,而约束对方的权利最好的办法是行使权利。
基于此,企业或机构第一步应该将用户的身份控制权归还给用户,因为数字世界中的身份就像是打开个人宝库的钥匙。按照现在互联网的常见做法,中心化的系统都是分配了一个凭证(用户名和密码)给到用户手里,钥匙还在他们自己那里,他们可以随意冻结或者撤销这张凭证。交还身份控制权的做法自然会给企业或机构带来不便。试想一下,中心化的系统中不存在用户身份,该如何分析这个人的生理属性如年龄等和他/她在线活动之间的关系?确实不容易,但是我们前面也分析过,这份不便是让渡权利交换用户主动承担个人身份信息的代价。对于用户而言,控制自己的身份信息确实增加了不少负担,例如:花费心思保管身份的钥匙,但是相应地,他们也获得身份自由,不再受制于人,也不害怕身份的相关信息被滥用。
那么,如何让用户控制自己的身份?其实互联网就身份做了多轮尝试,以 OpenID Connect 为例,它帮助我们打破了每个应用都必须重新注册的束缚,借助它的设计,我们可以很简单地通过一个第三方的身份提供者(ID Provider)实现登录到其它的任何应用中,这确实极大地优化了用户的使用体验。比如我们熟知的微信、微博、支付宝或者 Facebook 第三方登录,它们的流程设计让用户有了一种控制自己身份的感觉,因为每次登录都需要用户亲自授权。虽然这是历史叠加式演进的必然结果,可惜地是,这种做法离用户自己真正控制身份还有一步之遥——用户的身份还是第三方(微信等)提供的。要命的是,第三方身份提供者可不会对这些暴露出来的信息作出任何承诺,甚至什么样的信息会被暴露也是由这些身份提供者决定的,对于应用或者个人而言,并没有这么细粒度的控制权。而且,这势必会让用户身份信息逐步累积到少数几个平台上,形成数据垄断。用户和企业或机构并不想看到这样的结果。所以有必要将这些身份信息分散开来。于是,去中心化身份(DIDs)或者称为自主身份(Self-sovereign Identity)就有了用武之地。