K-匿名隐私保护模型

Defu Li

发布于 2019-01-23 15:38:48

2.6K0

人类历史上，除了计算机外从没有一项技术可以在短短的几十年间，能够全方位的影响整个社会的各个领域。技术的发展，少不了许多代人为之的努力。无论是在计算机硬件上，还是在实现的算法上，这其中有着大量非常精巧的设计，在后面的文章中，将会不定期的把这些知识写在公众号上。这次介绍一个在隐私保护领域常用的模型，K-匿名。

背景

随着大数据分析技术的迅猛发展，研究者以及各个商业公司迫切的需要从大数据中挖掘出有价值的信息。要想从大数据中挖掘信息，首先要有足够的可公开的数据，但是当大规模数据拥有者比如医院、政府、大数据公司等，对外发布数据时，不可避免的会涉及到公民的隐私问题。如果最大限度的保护公布数据的统计特征，又不泄露公民的隐私显得格外重要。

分析

表1是某医院数据库中存储的一张病历表。一共有7个属性，分别为用户识别号tId、姓名name、省份province、年龄age、性别sex、所患疾病disease、邮编zip。

表1 医院病历表

这一张表医院是不能直接用于发布出去的，至少也要把病人的姓名删掉然后再发布。在这张表里，病人的姓名是病人的标识符，如果有身份证号的话，也是属于标识符。标识符就是能够唯一标识病人身份的属性。对于标识符通常采用的是隐匿处理的方式（删除、屏蔽或加密）。那么我们假设医院将表1进行了发布，为了保护病人的隐私，将姓名这一属性删除掉了。

在这张表里，除了有标识符外，还有一些属性是准标识符。准标识符指的是那些介于标识符与非敏感属性之间的一些属性，这些属性通过与其它的数据表进行结合（链接攻击），也能够识别出病人的具体信息。在表1中姓名、省份、年龄、性别、邮编都可以看成准标识符。

链接攻击

链接攻击是从发布的数据中获取隐私信息最常用的攻击方法。攻击者利用从别处获得的数据，和本次发布的数据进行链接，从而推测出病人的隐私信息。

例如，攻击者从别处获得了该区域的选民信息表。该选民信息表中并没有涉及个体的隐私信息。

表2 选民信息表

当攻击者将表1和表2的准标识符进行链接起来时，会惊奇的发现，名为李青的选民，具有很大的概率是肺炎患者。这样一来，病人的隐私信息就泄露了。

K-匿名隐私保护模型

K-匿名隐私保护模型要求每条记录在发布数据前，都至少与表中K-1条记录无法区分开来。具有相同准标识符的记录构成一个等价类。所以，即使攻击者知道了一定的背景知识，知道了表2的选民信息，也无法与表1中确定的一条信息进行链接，因为在表1中有K条信息可以被链接，攻击者此时便无法唯一的识别出某个病人。表3满足2-匿名医疗数据表（此表数据的选取和表1表2无关）。表3中存在3个等价类，可以看出一些属性的数据范围变大了，这是泛化技术。

表3 满足K=2匿名数据表