谢邀,利益相关:阿里安全小二一名,“猎豹”作者之一。
“隐私计算”这个名词我们也不知道怎么来的,它其实是一个我国独有的名词,英文中没有严格对应的词组。按最接近的英文Privacy-enhancing computation直译的话,或许叫“隐私增强计算”更合适?不过字儿少了也就容易上口,更利于传播。
目前隐私计算是一大类技术的统称,包括安全多方计算,同态加密,差分隐私,可信执行环境(机密计算),联邦学习等。这些技术的共同目的是要做到“数据可用不可见”。
什么是“可用不可见”?我们知道数据是可以拷贝的,如果数据所有者把数据给其他人使用,那么别人自然也就可以拷贝数据,摇身一变成为下一个数据所有者。这明显会侵害原来的数据所有者的权益和隐私。隐私计算正是为解决这一问题而生:任何对数据的需求最后都会落到一个具体的使用场景上,隐私计算可以让数据使用者只能按照具体场景拿到使用结果,而不是拿走数据本身。
一个最简单的例子是“百万富翁问题”:假设两个富翁各自存了一笔钱,他们想知道谁的钱更多,但是又不想把自己到底有多少钱透露给任何人。在没有“隐私计算”时,显然这是不可能实现的:任一方要独立的计算比较结果,都必须要接触输入数据。但是隐私计算可以让这成为可能:我们可以设计对应的隐私计算解决方案,让双方合作的计算出“比较”这个结果(即“可用”),而不需要把财富数字告诉对方(即“不可见”)。具体的,我们可以使用基于混淆电路或秘密共享的安全多方计算方法来解决这个百万富翁问题。
“猎豹”就是这样一种安全两方计算技术。假设这样一种场景,甲方拥有源数据(例如图片),乙方拥有AI模型(例如可以判断图片是否违规或者侵权)。甲希望购买乙的服务来智能的判断自己的数据是否有问题,但是双方的数据都是商业机密,甲不愿意把自己的图图直接交给乙,乙也不愿意直接把自己的模型参数告诉甲。“猎豹”就可以完美的满足这么一个纠结的需求,让双方可以合作算出图片是否违规(可用),同时甲无法获取乙的模型参数,乙也不知道甲的图图到底是什么(不可见)。
需要说明的是,以安全多方计算这一类技术为代表的隐私计算解决方案,需要引入复杂的密码学算法和协议来实现“可用不可见”,因此其代价是巨大的。比如上面的图片识别的例子,“猎豹”需要至少80秒才能完成一次ResNet50的推理,如果乙直接把甲的图片拿去做明文推理,可能只需要毫秒级,这个差距达到了数千倍。在简单一些的模型上,这个差距会缩小一些,但代价也不少,例如逻辑回归训练,“猎豹”可以在百兆网下,数小时内完成百万行的数据建模。
为什么安全多方计算这么昂贵呢?因为它是一种密码学协议,需要能够以数学证明的方式说明自己除了双方认可的计算结果之外,不会泄露其他任何关于原始数据的信息。这就是“可证明安全”。
如果不需要可证明安全,那么其实可以设计各种千奇百怪的方案:例如百万富翁问题,双方先比亿位,再比千万位,相等就比下一位,一直比到有一个人胜出,不就行了吗?这不也没泄露具体的财富数字么?不是的,这还泄露了额外的信息:双方在哪一位上不相等。这方面的对比就是联邦学习:联邦学习不是纯加密状态下的计算,因此其各个数据所有者之间的交互中是必然含有额外信息的。即使使用了同态加密,其交互中也必然包含解密步骤。以两方合作的联邦学习为例,其中拥有同态私钥一方可以通过解密结果,获取另一方的中间信息内容,而这部分信息显然是最终建模结果之外的额外信息。这些额外信息算不算隐私泄露?可能各人有各种看法,但是如果方案涉及重要的敏感数据,我们更建议使用可证明安全,确定没有问题的方案,而不是不可证安全,不确定有没有问题的方案。
当前我国隐私计算业界实际上存在一个误区,就是关注性能超过关注安全性,拿到一个隐私计算解决方案,大家习惯先问“这个方案能做到比明文慢多少倍”。实际上从上面的例子里我们可以看到,只有在同样的可证明安全模型的基础上,才可以比较性能。我们说“猎豹”比世界最好成果提升5倍,这就是和微软研究院的CryptFLOW2(ACM CCS 2020)在同样的半诚实两方模型下比较得来的。英雄惜英雄,“猎豹”发表的第二天就在国际业界形成了相当大的影响力(捂脸,诚实地夸一下寄几):CryptFLOW2的作者来信恭喜我们完成对他们的超越,ABY2.0(USENIX’Sec 21)的作者来信埋怨我们为什么不引用他,最有趣的是MP-SPDZ(ACM CCS2020)的作者来信质疑我们怎么可以这么快,挑战我们的代码某处写的有问题,最后来回论战了十几封邮件之后,他没能挑战成功 :)相比之下,如果不要求可证明安全,我相信不用说5倍,快几百倍都可以做出来,但是这样的成果没有任何技术难度,是不可能得到相关领域专家的认可的。
随着隐私计算概念的火热,我国业界目前确实存在不少赶热点的项目,都自称“隐私计算”解决方案,但是其中很多都是不可证安全的,门槛很低。如果这种状态持续下去,“隐私计算”可能会泡沫化,用户会错误的高估隐私计算的性能,低估隐私计算的局限性,劣币会驱逐良币,泡沫最终会破灭,对业界会形成不利的影响。我们团队这次把“猎豹”开源出来也是希望业界能够确实了解隐私计算的难度、代价,对可证明安全方案的性能有一定的体感。期待学术界和工业界一起合作,打造更好的隐私计算生态!
数据是网络空间里的绿水青山,曾经粗放开发增长的数据时代已然过去,我们需要期盼更实用更有效的数据保护技术。
那么在众多科研人员的推动下,是否有能够真正从源头保护数据安全并使用好数据的方法呢?答案是:有——「隐私计算」便是为此而生。
首先,来看一个问题:
两个百万富翁街头邂逅,他们都想炫富,比比谁更有钱,但是出于隐私,都不想让对方知道自己到底拥有多少财富,如何在不借助第三方的情况下,让他们知道他们之间谁更有钱?
该问题引发了全世界密码学专家的思考,一个最简单的方式,当然是找一个公认可信的见证人,各方将自己数据给见证人进行比较得出结论,但在现实世界中,很少能找到这样理想的见证人,因而,便引出了安全多方计算的问题。
实际上这个问题并不新鲜,这其实是几十年前姚期智先生提出的经典问题,即百万富翁问题,也是多方安全技术(隐私计算的一种技术)所需要面对的一项经典难题,安全多方计算的研究浪潮有效地解决了数据的“保密性”和“共享性”之间的矛盾。
隐私计算(Privacy-preserving computation),是指在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一系列信息技术,保障数据在流通与融合过程中的“可用不可见”。其包含了数据科学、密码学、人工智能等众多技术体系的交叉融合。
隐私计算主要分为了三大类:多方安全计算:基于密码学的隐私计算技术;联邦学习:人工智能与隐私保护技术融合衍生的技术;可信执行技术(TEE):代表的基于可信硬件的隐私计算技术。
目前,隐私计算相关技术受到业界和资本界高度关注,去年有相关创业公司完成近2亿元A轮融资,刷新隐私计算赛道A轮单轮融资纪录。
至于谈到国内隐私计算技术的最新进展,便是最近阿里安全在USENIX Security Symposium 2022 会议上发表的研究成果——即安全两方计算框架Cheetah(猎豹)了。
根据文章内容,Cheetah使得两方计算的整体性能取得了大幅提升,最好的情况下,可以比目前世界最好的计算方案微软 CryptFlow2 快 5 倍以上。
这无疑是一项重要的进步,在保护隐私的情况下,能够更高效地实现两方联合计算。此外,真正达到可证明安全的Cheetah,也有助于加强业界对隐私计算现状的认识。
以保护用户隐私的图像识别服务为例,假如客户甲有一张图片,服务器乙需要对该图片进行 AI 识别,判断是否含有不合规的内容,但出于隐私保护要求,又不能查看甲的图片本身。用此前表现最好的微软的 CryptFlow2 进行测试,需要数百秒才能完成一张图片识别,而 " 猎豹 " 在保证同等的可证明安全前提下,让速度快了 5 倍,可以做到数十秒,离实用迈进了一大步。
(——洪澄)
随着数字时代的到来,互联网上海量数据保护流通,将给数据安全保护带来巨大的难题,如何合理地保护自己的数据,是互联网时代所有人都应该思考的问题,毕竟人人都不喜欢在网上裸体冲浪,而这,也正是隐私计算的意义所在。
此外,在达到安全目的的情况下,实时性和高效性是很重要的,人人都厌恶延迟,渴望即时的反馈,所以在保障安全的同时,速度很重要。上文谈到的阿里安全研发的 Cheetah(猎豹)安全两方计算框架,便是在这方面做的改进,极大提高了隐私计算的效率,可以说是向着实用性的方向迈进了一大步。
期待这项技术未来有更广泛的推广和应用,用以保卫我们的数据安全,我们的社交媒体数据,交易记录、人脸信息、简历、电话、邮件等隐私数据,同样需要被保护起来。
参考内容:
先给大家解释一下「隐私计算」的概念,隐私计算的原本含义是保护数据本身不对外泄露的前提下实现数据分析计算的技术集合,达到对数据“可用、不可见”的目的。其源自于图灵奖获得者、中国科学院院士姚期智先生曾于1982年提出著名的百万富翁问题: 两个富翁的财产是1到10之间的证书,如何在不透露自己财产的情况下比较谁更富有?对于处理这类棘手的“隐私数据”带来的问题的方法,我们称其为「隐私计算」。
数字经济时代的特点之一便是将数据视作关键的生产要素,并通过跨领域、跨行业、跨地域的机构间数据流通释放要素价值。但是数据流通的安全风险高,且如何确保数据流通过程的安全合法合规尚需讨论。我们享受到了数据共享的红利,比如健康码、智能语音输入法等,与此同时,我们也要保护自己的隐私和安全。
3月2日一则新闻吸引着我的注意,《环球时报》记者报道:除严重威胁电力、水利、交通、能源等关键基础设施外,NSA还将通信行业视为重点攻击目标,长期“偷窥”及收集关于通信行业存储的大量个人信息及行业关键数据,导致大量网民的公民身份、财产、家庭住址、甚至通话录音等隐私数据面临着恶意采集、非法滥用、跨境流出的严重威胁。在NSA组织的监视下,全球数亿公民隐私和敏感信息无处藏身犹如“裸奔”。
但事实上我们每个个体都需要隐私,谁也不想成为暴露在黑暗网络森林里的诱饵,因此保护通信安全、数据安全、网络安全成为从个人到集体的共同目标。
每个人能够获取的信息和自身暴露的信息都在成倍增加,而涉及的用户对其几乎无从感知。在我们享有大数据便易的强大功效时,也向它输出着我们的反馈。
2021年被称为“隐私元年”,相继出台了《数据安全法》、《个人隐私保护法》等数据安全条例,与此同时国内多个隐私计算公司如华控清交、数牍科技、翼方健数等业内企业获得资本青睐得到巨额融资,包括阿里在内的互联网大厂等也纷纷布局隐私计算技术。例如,蚂蚁隐私计算平台“隐语”去年在医保DRGs建模中进行应用实践,如今看到阿里安全部门在四大安全顶会之一的USENIX Security Symposium 2022上发表关于高性能两方安全计算的框架应该算是结出了丰硕的果实(在隐私计算领域,阿里是唯一在USENIX Sec22上发表论文的中国公司)。
何为隐私计算?目前业内将隐私计算分为三大类:
1. 硬件层面:可信执行环境 (Trusted Execution Environment, TEE)
在计算平台上通过软硬件方法设计出一个安全的计算区域,可以保证在此区域内进行运行的代码及数据的隐私性和完整性。通过硬件提供物理层面的安全隔离和计算环境,即使设备底层的基础软件或系统被恶意攻击破坏,也不会影响到数据和代码安全,通过加密算法验证和计算隐私数据,参与方可通过验证整套代码来确认可信执行环境的安全性。
2. 数据交互层面:安全多方计算 (Secure Muti-Party Computation, MPC)
姚期智先生提出的百万富翁问题引发了全世界密码学专家的思考,一个最简单的方式使找一个公认可信的见证人,各方将自己数据给见证人进行比较得出结论,但在现实世界中,很少能找到这样理想的见证人。
在提出该问题四年后,姚期智先生提出了混淆电路解决了这个问题,随后开启了安全多方计算的研究热潮,现如今基于不经意传输、秘密共享等方式提出了BMR、GMW、BGW、SPDZ 等安全多方计算框架,实现了多方联合数据分析、数据安全查询等场景使用。
3. 数据建模层面:联邦学习 (Federated Learning, FL)
在传统建模过程中,用户数据需要上传到平台服务器端才能进行建模,但是这种数据集中化带来了巨大的隐私风险挑战,在联邦学习建模过程中,用户只需要将计算的中间结果加密后发送给中心服务器即可完成建模和更新。数据不离开设备本地,意味着原始数据所有权被牢牢掌握在使用者手中,实现了真正的隐私安全。
这三种技术通俗一点来讲就是:
1. 我的数据和程序都通过加密技术放在最底层,你可以用但是看不到;
2. 我跟不信任的人协同做计算的时候可以保证他不会骗我,而且别人窃取中间的内容也破解不了;
3. 我把数据通过秘制调料处理过再让你加工,你接触不到原材料和调料,就不可能掌握我的秘方。
事实上,回顾密码学历史就会发现一直在研究这三个问题。古罗马发明凯撒密码,通过将字母表顺移指定位数后对内容加密。例如,当规定按字母表顺移3位的话,那么a就写成d,b写成e,…,y写成b,z写成c,这样在不知道顺移位数后便难以快速破解内容;一战时期有线电和无线电通信成为军事信息传递的主要手段,有线电报容易被破坏或窃听,无线电报能够被敌人直接接收到发射在天空中的电报信号,加/解密成为战争中关键的一环,谁能掌握信息传输安全,就能保证行动的顺利进行。
彼时彼刻,恰如此时此刻。现代信息安全战的重要性不言而喻,前段时间传出俄罗斯士兵身份等隐私信息大规模泄露、作战方案被窃取等,无不阐述着隐私安全的重要性,但天下没有免费的午餐,加密方案越来越安全的同时带来的是计算量的暴增。
为了确保达到安全的目标,隐私计算需要针对性地设计复杂、昂贵的密码学协议,造成密文体积大,计算速度很慢,而这成为隐私计算技术最大的痛点。阿里在论文中提及此前表现最好的微软的 CryptFlow2 进行测试,需要数百秒才能完成一张图片识别,而“猎豹”在保证同等的可证明安全前提下,让速度快了 5 倍,可以做到数十秒,离实用迈进了一大步。
阿里巴巴达摩院在发布2022十大科技趋势时便已经将全域隐私计算纳入其中,数据安全保护与数据流通是数字时代的两难问题,破解之道是隐私计算。
随着专用芯片、加密算法、白盒化、数据信托等技术融合发展,隐私计算有望跨越到海量数据保护,数据源将扩展到全域,激发数字时代的新生产力。
目前,阿里已将“猎豹”两方安全计算框架贡献到蚂蚁的隐私计算框架—“隐语”中,加速行业互联互通,确保数据流通过程的安全合法合规。期待早日看到国产平台早日建成属于自己的科技壁垒和护城河。
在我看好AI发展方向中,隐私计算算是一个。
我在过去两年的时间里,在多个回答里一直提到隐私计算,例如下面这几个回答。
借着这个问题,简单给读者科普下什么是隐私计算,以及为什么需要隐私计算吧。我尽量隐藏技术细节,用比喻来帮助大家理解隐私计算的概念。
隐私计算指的是在保证提供方的数据不被泄露的前提下,对数据进行利用和计算的一系列相关技术。就好像厨师有个秘方可以做出独一无二的蛋炒饭,厨师可以利用自己的厨艺开餐厅,但不能泄露自己的秘方。这里秘方就像数据,而炒饭,就是数据提供的价值。而隐私计算,就是让顾客无论怎么分析炒饭的成分,也难以还原秘方的算法。
大家有时候会听到的联邦学习,差分计算,都是隐私计算的实现方式。如果对具体技术感兴趣,可以看到 @lokinko 写的专业技术文章和Github Repo。
读者也许最想知道的是,为啥需要隐私计算?
最近十年人工智能的快速发展,主要推动力是计算能力和数据量的发展,但我们也可以看到企业随意收集用户数据,侵犯用户隐私的情况屡屡发生。因此2021年,《数据安全法》、《数据安全管理条例》、《个人隐私保护法》陆续出台了,保护数据的安全和个人隐私,已经是大势所趋了。联邦学习、差分隐私和加密计算等保护隐私的算法在过去几年也一直在发展,这些算法既能保护数据安全,也能打破数据孤岛,让数据发挥最大效果的同时,防止数据外流。
来到2022年,我依然看好隐私计算里的机会,从参考[1]里可以看到,这个细分领域的市场规模依然是迅速发展的。
根据相关机构预测,到2024年全球隐私计算市场规模将达到150亿美元,中国隐私计算市场规模将在15-30亿美元左右,换算成人民币将达到百亿市场规模。
相比整个人工智能行业,隐私计算的市场规模看起来并不算大,但市场规模并不代表价值。海量数据+超大模型能得到的边际收益正在递减,而联邦学习对人工智能行业健康长期的发展会更有价值。