个人角度,首要因素是从心理和行为上重视数据的重要性,具体细节包括但不限于:
同时建议从国家层面仿照欧盟隐私保护法(GDPR)出台相应法律,保护用户从企业手里夺得隐私数据链路的控制权。
其实(数据)隐私这个概念,在信息学里和在大众眼中并不相同:
这是个人可以参考的隐私保护思路。
虽然隐私(privacy)这个概念是Warrian在1890年左右的《隐私权》里提出并广为流传,但是大多数人往往只是明白它的法律和社会学含义,即「隐私」=「用户认为自身敏感、且不愿意公开的信息」。在信息技术方面,我们讨论的隐私往往聚焦在数据上。数据需要在特定的情景或者事件下,才会被收集/产生。
换句话说,广义上的数据隐私往往需要符合事件四要素:
数据 = 人物(Who)+/or 时间(When)+/or 地点(Where)+/or 事件(What)。
也正是因为这四要素,学术界就出现了一种折衷思想:如果我们采取某种手段保护其中一部分,那么在大多场景下也就等价于保护数据隐私。
比如:
实际上,现实世界里很多人就是这么做的。
一些明星在出门时往往喜欢带口罩甚至全副武装,这就是在保护身份隐私,从而保护数据隐私。明星的全副武装,其实算是从个人角度、在真实世界里能做到的极限了,对于隐私非常看重的同学推荐学习(:。
但即使如此,大家可能不知道的是,如果只局限于去除某些要素(比如身份信息),数据(事件)关联性分析依然很容易反推出原始信息。
有两个非常典型的案例:
当然,如果我们把上述四个要素全都进行保护,即出门蒙面,互联网上完全不实名,或者在访问互联网的时候采用Tor等匿名服务,删掉/禁用一切缓存/推送服务,只用纸币,那么确实可以花费巨大代价像中本聪一样从互联网隐身,即完美的匿名。
但是这种方式带来的时间和经济成本都非常可观,我也相信大多数人用不到。对于大多数人来讲,对隐私的忧虑其实并不是隐私技术本身是不是够强,而是一种对未知情况下信息失控风险的担心。
正如我们之前所说,隐私其实不可能被完美保护,它往往只能被限制在一个小范围内,这种角度来说,我们也能认为隐私最大的问题还是信息泄露。如为了推断一个用户的身份或者行为信息,没有授权的第三方可能会从不同的社会数据中整合其他数据,并进行推断。
从这个角度来讲,现代社会很多人担心自己的隐私问题,本质上是在担心自身信息的传播链路失控[4]。
但是现在毫无疑问已经失控了。
每当用户使用网络的时候,网络服务商往往会在用户不能预见的多种途径、多种维度上收集信息,用户甚至对此完全无知。当然某种程度上,这种收集是有好处的,因为会便利用户的日常数据使用。目前大家都面临的问题其实相通:
因此,正确的做法是,我们应该得到合理的处理自身信息的权利,比如在特定商家自查数据的权利,有权要求自身数据的公开范围 (细节到某些服务),有权要求放弃个性化推送等服务。
在集体诉讼缺失,导致个人司法弱势的当下,这也是未来立法应该做到的事。
TL;DR:“刚和朋友聊完种草的衣服,淘宝立刻推荐相似的款式;明明没录入过信息,却能被人脸识别系统所确认;收到的诈骗电话不断升级,甚至能说出高中班主任的名字…”当我们谈论隐私保护时,我们的诉求是什么呢?作为用户,我们固然舍不得信息时代的便利,但也不愿让自己的一切信息暴露。是否存在某种解决方案,使得我们在享受大数据推荐的便利时,又可以模糊个体的精确信息,从而构造个体数据的防盗门呢?在这里,我们想讨论隐私的准确的定义,个体隐私保护与大数据推断准确性的平衡,然后简要介绍先进的隐私保护技术,最后,我们将从普通人的角度出发,提出几个有效保护个人隐私的建议。欢迎大家一起讨论,也欢迎关注我的知乎专栏:隐私保护。
从2018到2021年,各个国家和政府相继出台了隐私保护法案,如2018年欧盟出台一般数据保护法案(General Data Protection Regulation,GDPR),2021年中国人大通过个人信息保护法。虽然这些法案限制了个人数据的收集与滥用,但在实际执行中,各互联网企业往往会利用自己的平台优势,要求用户在各个APP上额外同意一堆冗长的数据使用条款,否则就无法使用相应的服务。这种店大欺客的方式将法律成本直接转嫁给了个体,而个人隐私并没有因为法案的出台得到相应的保护。
诚然,个人对于自身隐私的让步可以令AI模型的服务效果更好,从而获得互联网时代的便利性。但是,无节制的信息滥用也会使得每个人犹如裸奔。政治家有句名言,“即使最诚实的人写六行字,都能从中找到足够的理由来判处绞刑”,如果自己的每一次浏览记录,购物记录,以及在微博和知乎上的发言都被记录并精确关系到个人,那么从数据控制者的角度,用户会丧失一切尊严,成为互联网上的韭菜。
那么,当我们谈论隐私保护时,我们的诉求是什么呢?作为用户,我们固然舍不得信息时代的便利,但也不愿让自己的一切信息暴露。是否存在某种解决方案,使得我们在享受大数据推荐的便利时,又可以模糊个体的精确信息,从而构造个体数据的防盗门呢?答案是肯定的。在这篇科普文中,我们将讨论隐私的准确的定义,个体隐私保护与大数据推断准确性的平衡,然后简要介绍差分隐私与联邦学习这两种先进的隐私保护技术,通过联合使用这两种技术,可以在保证AI模型准确性的同时保护参与推断的个体隐私。最后,我们将从普通人的角度出发,提出几个有效保护个人隐私的建议。
我们先对“什么是隐私”这一问题进行讨论。在不同的场景和尺度下,隐私的定义也不一样。比如,我们可以极端地认为,“一切关于个体的信息都是隐私”,那么应当拒绝填写基本信息,拒绝参加各种问卷调查和人口普查。但是,数据是社会运行所基本的燃料,适度贡献统计信息会帮助精准的政策制定,提升生活的便利。因此,目前普遍比较接受的定义是:“单个用户的某一些属性可以被看做是隐私,但是对群体数据的统计与加工则不认为是隐私”。譬如,某医院发布调查报告说,在该医院,吸烟者患肺癌概率是不吸烟者的20倍,这个不泄露任何隐私。但是如果医生说,张三因为吸烟,所以比其他人患病概率高20倍,这就是对张三隐私的泄露。再举例,高德地图交通大数据称,凯迪拉克车主偏好洗浴场所,这一度引发了隐私泄露的讨论。但是在上述定义下,只要不涉及具体的客户,则此统计信息也并不是隐私泄露。
在这种“保护个人信息,不保护统计信息”的隐私定义中,对于任何数据库中精确个体的信息查询与检索都会泄露隐私,因此禁止对于个人数据的精确查询是合理且基本的隐私保护诉求。但是,就算确保了个人数据的加密,数据分析的过程,即对一群用户的某些属性的统计信息查询(如查询个人收入的平均值,中位数),以及对查询结果进行加工与建模,往往也会泄露个人隐私。综合个体隐私与统计信息的贡献,对于数据分析的过程,我们希望达成如下的隐私保护:
对于任何数据分析员,要求其在对数据库进行分析后,对数据库中任何一个个体的了解都不会超过其在分析开始之前的了解。
个人数据加密存在对立的解密者与攻击者,但是在数据分析的过程中,分析师与“隐私攻击者”往往是同一个人,因此相比于数据加密,在数据分析的过程中进行隐私保护存在不对称性的难点,这就带来了很多意想不到的隐私泄露场景。
数据分析是一个复杂的过程,就算严格禁止个人数据的查询,个体隐私也往往在不经意间泄露。我们先来举几个例子,看看什么样的数据分析行为会侵犯隐私,以及什么样的行为看似不会侵犯隐私,但是通过一连串叠加也会侵犯个人隐私。
首先,不加监管的统计信息查询也会泄露个人隐私。考虑一个含有上百万条目的数据库,我们规定只允许查询摘要形式或者统计形式的信息,这种数据分析方法看起来保护了个人隐私。但是,如果分析师知道某个个体的信息包含在数据库中,就可以利用一种叫差分攻击的方法得到个体的信息。比如,如果已知张三的信息在某个医院数据库中。那么分析师可以查询:有多少人患血友病,以及通过条件查询,有多少个不叫张三的人患血友病。如果前者的查询结果是70人,而后者的查询结果是69人,那么经过差分比对,分析师就得到了张三患血友病这一个人隐私。
其次,引入监督者去监管每一次的数据查询也会泄露个人隐私。对于上述的差分攻击,一个自然的想法是引入某个监督者去禁止"有多少个不叫张三的人患血友病"这种不安全的查询,或者允许该监督者在必要的时候对数据库进行匿名处理,这样似乎可以避免上述的差分攻击,那么是否存在一个监督机制能保证数据分析过程中隐私不被泄露呢?答案是否定的,原因有二:(1) 禁止查询的决定本身也会带来隐私泄露。比如国家不公布第七次人口普查的具体数据,或者从2006年开始不公布中国的基尼系数,这本身也具有某些信息。(2) 可以将单次泄露隐私的查询拆分成一系列查询,使得对于每次查询都很难判断是否构成隐私泄露。
最后,由于不同行业数据分析师的知识背景非常多样,因此分析师的先验知识会将一些不泄露隐私的查询变得泄露隐私,这种隐私泄露的形式称为辅助信息带来的隐私泄露。比如一个分析师是张三的邻居,他知道张三在某一天去了医院。而他同时也是该医院的数据分析师,而在医院的匿名数据库中,这一天的数据条目只有两三条,那么张三的就诊信息就会泄露。又比如作为张三的邻居,我们发现他常常去买蛋糕。但是有一段时间他忽然开始买不含糖的面包了,如果分析师是一个医生,可能会猜想他患了糖尿病,这就是辅助信息带来的隐私泄露。
综上所述,对于个体数据的查询加密是保护隐私的基础,但是仅仅禁止直接获取个体数据是远远不够的。差分攻击与辅助信息会在对统计数据的分析过程中泄露个体隐私,而引入监管也不能保证隐私安全。但是,通过联合使用差分隐私与联邦学习这两种技术,我们可以在严格保护个体隐私的情况下,允许对群体的统计信息进行全面分析。
在介绍具体的隐私保护技术之前,我们先探讨一个社会科学对敏感性问题进行调研的例子。
假设我们想要调研已婚人群中的出轨比率,那么让每一个被调研者如实回答问题必然导致个人隐私被侵犯。但是我们想要获取的是统计信息,而非每一个个体的信息,因此可以构建一个随机回答的调研流程:首先,令受访者自己抛一枚均匀硬币,如果正面朝上,那么如实回答问题,如果背面朝上,那么再抛一枚硬币。如果这枚硬币正面朝上,那么回答“是”,背面朝上则回答“否”。在这种流程下,任意受访者都至少有的概率会回答“有过出轨”,因此就算受访者的回答是“有出轨”,也不能判定他是否真的出轨过。这样,他的个人隐私就得到了保护。但是对于研究者而言,总体的出轨比例可以通过简单的计算得到:
基于这种方案,我们就在保护个人隐私的同时得到了统计信息。社会科学的调研方法对隐私保护具有重大启示:
通过引入随机性,可以在获取统计信息的同时,给个人信息蒙上一层随机浓雾,从而构建个人信息的防盗门。
差分隐私通过引入随机性,可以对抗由差分攻击与辅助信息所带来的隐私泄露。回顾对于数据分析的隐私保护要求:对于任何数据分析员,要求分析员在对数据库进行分析后,对数据库中每一个个体的了解不会超过其在分析开始之前的了解。为达成这种目的,我们需要对差分隐私提出两个疑问:对于一个数据分析过程,应当在什么时机,以什么方式引入并实现隐私保护机制呢?在上文对于可能泄露隐私的场景讨论中发现,引入实时的监督者并不能保障个人隐私安全,因此差分隐私的作用时机必然是在数据库发布后,到所有的数据分析工作开始之前。基于这个结论,我们可以想象差分隐私所扮演的角色:
在数据分析的过程中,差分隐私扮演了一个值得信赖的数据库管理员角色,它的目的是保护数据库中每一行记录,同时允许整个数据库能够被分析。这个管理员在数据库面向数据分析师发布前,会对原始数据库进行一些操作:对数据库进行合成(例如,依据原始数据生成一些相似的虚拟数据)、对某些统计结果进行汇总(例如,将患者数据按年龄段进行分组,仅按年龄段发布统计信息,然后删除个体数据)、或者自行清除某些离群数据,然后发布新的数据库,销毁原始数据库,此后,差分隐私不再发挥作用。要求经过差分隐私后,对于新的数据库上任何可能的查询,以及根据查询结果的一系列加工都不会泄露个体隐私。
那么,差分隐私是如何工作的呢?考虑差分攻击的特性,如果每一次回答都是确定的信息,那么通过前后对比,则必然会泄露个体隐私。通过引入随机性可以应对差分攻击,以上文血友病为例,如果我们查询有多少人患血友病,数据库回答的是70到75人之间的随机数值,而条件查询有多少个不叫张三的人患血友病时,回答69到74人之间的随机数值,那么即使进行了差分攻击,对前后的回答数据做比对,仍然很难泄露张三的真实信息。基于这种直观理解,我们给出差分隐私的形式化定义:
(差分隐私的形式化定义)我们称输出带有随机性的数据分析过程满足隐私损失为的差分隐私(记作DP),如果对于数据库上任意两个仅仅相差一条记录的相邻数据集,采用分别进行数据分析的结果分布相差不大,即对于所有可能的分析结论,满足
公式展示了差分隐私的基本目的,即要求对于任意的个体,在所有可能的仅仅相差该个体这一条记录的相邻数据库上,数据分析者无法仅通过输出结果对它们进行概率上显著的区分。那么,这种“无法区分”的性质会带来什么好处呢?我们可以从社会效用的角度对该问题进行探讨。
考虑数据库中的某个个体,我们记他在未来所有可能经历的事件集合为(譬如考研是否成功,就业是否顺利等都算事件),对于每一个事件,都可以认为该事件对于个体具有某种可以量化的影响,这种影响称为该事件的效用。譬如,用平均工资衡量效用,假设考研成功能够带来¥1000的平均工资增长,那么就可以记考研成功的效用为1000,而不成功的效用就是0。我们用效用函数衡量所有可能事件以及它对应的效用:
对于满足隐私损失为的数据分析过程,数据分析者可以用它进行一次分析行为,记为,如果这种分析行为泄露了个人信息,那么就会对未来的事件产生影响。例如,如果某个人的犯罪记录因为某次查询而泄露,那么就可能会影响个体事业的发展。我们记由于数据分析过程的查询所导致个体的未来事件分布为,所对应的概率分布为,此时对于个体的期望效用为:
此外,我们记除去个体后所得数据库为,在这种情况下,由于个体并未参加数据分析的过程,因此个人隐私并未泄露,我们以此时的效用函数作为零隐私泄露的基准。通过同样的方法,计算通过相邻数据库的分析对于个体的期望效用如下
利用差分隐私的定义,我们有
利用极限,我们可以得到
通过式可以从效用函数的角度理解差分隐私:虽然贡献自己的数据可能确实会导致自己面临一些伤害,但差分隐私保证了这种伤害的后果是可控的,个人的效用函数不会因他们的数据参与分析而显著减少。这种性质非常实用,因为数据的提供者往往无法控制分析结果的进一步利用,如果我们对隐私保护不加限制,那么数据分析过程对个体可能造成的影响是未知的。而有了差分隐私,任何数据分析师都可以保证个体预期的未来效用不会受到超过水平的损害。当个人决定是否贡献自己的数据用于数据分析时,他们可以根据的值来量化可能的损失,通过比较分享数据获得的激励,可以决定是否共享数据。
此外,差分隐私还有一个良好的性质叫做传递性,即对一个满足差分隐私的数据分析过程所得到的结果,对该结果进行任何进一步加工处理也具有差分隐私的特性。也就是说,数据分析师不能仅仅通过坐在角落里思考算法的输出,得到任何会泄露个人隐私的结论。因此,差分隐私也能够解决数据分析师的辅助信息所带来的隐私泄露。
考虑本文开头的四个隐私泄露的场景,如果所有的数据收集与发布流程都满足差分隐私,那么个人隐私泄露的情况会有很大的好转:淘宝可以通过统计信息得到当季最流行的衣服款式,但是对于个人的喜好则只能以概率进行模糊推荐,而不会缩小到具体的商品;只要不进行个人同意的精准录入,人脸识别系统就无法工作;诈骗电话所获取的个人信息都是概率正确的,高中班主任有50%的概率叫张三,也有50%的概率叫李四,因此多问几个问题就会露馅。同时,添加差分隐私并不会使得我们的统计信息产生过大的偏差,这样就平衡了个人隐私保护与群体统计的需求。
对差分隐私的进一步了解需要涉及一些概率论知识,我们开设了专栏进行专业讨论:
数据是信息时代的燃料。在各大互联网公司,用户数据更是扮演了“生产要素”的角色。但是,与其他生产要素不同,数据的转移与复制具有零成本,不可控的特征。数据一旦产生了可流通的副本,数据发布者就几乎无法监管它的使用场景,因此,控制数据的流通是隐私保护的核心诉求。欧盟发布的数据驻留法案要求所有在欧盟的公司都必须确保数据存储在欧盟境内,而滴滴因为泄露国土安全数据的传闻,其产品现在仍未恢复上架。然而,存储在服务器内的数据无法产生任何价值,对数据流通的限制不能因噎废食。是否存在一种分布式的人工智能训练策略,使得我们能够令数据去中心化地存储在本地的同时,能够联合训练一个强大的全局模型呢?联邦学习(Federated Learning)是一种可行的技术。
联邦学习是一种满足隐私保护的分布式AI训练方案,它允许多个客户端(例如多个移动设备,多个数据供应商)能够在某个中央服务器的调度下协作训练AI模型,每个客户端都能从联合训练中受益,同时保持训练数据的去中心化存储,尊重各方数据隐私。关于联邦学习的进一步讨论需要一些深度学习的专业知识,我们也开设了相应专栏:
综合利用差分隐私和联邦学习两种技术,可以在理想情况下构建完全隐私保护的AI系统。在每一个本地服务器上,数据分析模型的训练满足差分隐私的要求,因此可以对抗由差分攻击与辅助信息所带来的隐私泄露。而联邦学习可以在数据不出本地的情况下,联合训练一个强力的全局模型。受益于差分隐私的传递性,全局的数据分析模型对于每一个本地数据库而言也满足隐私保护的要求。
此外,笔者也私心安利一下我们组在隐私保护与联邦学习方面的工作。在联邦学习中,多个客户端的数据往往会出现分布不一致的情况,而由于无法获取原始数据,这种分布偏移会极大影响AI模型的性能。为解决这种问题,我们提出了一种高迁移精度,低通信成本,并具有负迁移鲁棒性的联邦迁移学习范式,并在ICML2021上进行了报告:
总结差分隐私和联邦学习的核心思想,隐私保护的核心在于尽量保持个人信息的私有,以及在发布个人信息时增加随机性。根据这个思想,可以为普通个体提出两条简洁有效的隐私保护策略:首先,如非必要,不要填写个人信息。其次,在填写个人信息时,为信息增添随机性。比如我们可以随机在一半的APP上性别填写为男,而另一半则性别为女;填写姓名时,将真实姓名随机挖去一两个字作为代替;填写生日时,用真实日期附近的某随机日期代替;填写身高,体重,个人收入等敏感数据时,在真实数据后随机加减一个噪声。通过这些简单的方法,我们可以在享受AI带来便利的同时,有效保护个人隐私。
大数据时代下,每个人的生活方式都发生了巨变。迅猛发展人工智能必然是以让渡了部分个人隐私权作为代价的。当各个AI科技企业在描摹元宇宙,书写星辰大海的公关文时,个体隐私,以及隐私背后的尊严都往往成为粉饰业绩的注脚。但是,如同煤炭般赤裸燃烧的用户信息背后,是鲜活的个体与他们生活的痕迹。倘如“隐私权”之于科技发展,永远只是“科技进步”这一概念的注脚,那么我想生产力的发展,并不会带来更好的生活,而这也是我写作此篇科普文的初心。
隐私保护不仅需要国家层面的推动,也需要每一个个体有意识的维权。差分隐私和联邦学习是两种可以实用的技术,也是作为普通人能用以维权的工具。如果在收集数据时,我们能够反问一句,数据收集者是否确保数据发布遵循了差分隐私原则,或者在使用推荐系统带来的便利时,关注一下用户数据的存储方式,那么隐私保护就能走出温室,成为信息时代的基本人权。
本文使用 Zhihu On VSCode 创作并发布
商场运营方的本质是物业公司,
想各种办法吸引人流过来,接着招商,目的是收取租金,然后涨租金。
所以这个问题的本质,是来福士想要吸引的大批顾客群体,他们是不是在意棒棒入内。
如果他们其实希望棒棒不入内,那么来福士不过是个手套防火墙而已,抵挡了来自网络和外界的骂名。
如果他们反对禁止棒棒不入内,那么就算没有这个报道一段时间后来福士自己也会被用脚投票的顾客教做人。
商场是否以为棒棒影响了形象不重要,最终用户怎么想的才重要,想想谁掏钱?
所以,到底是顾客有这样的需求而商场才这么去干?还是商场自以为是的猜测了顾客的需求呢?这只有顾客自己知道了。