《未来简史》里提到过一个观点:互联网时代的竞争将是数据的竞争。
计算机承载数据的流通,数据担任信息的载体。徜徉在高密度信息流的我们,正如在深海遨游的鱼,我们感受不到数据的流动,但它一直从我们身边飘过。
从前没有意识到它无处不在,而现在我们越来越想要维护数据安全。
2021年被称为隐私数据元年,随着我国《网络安全法》《数据安全法》和《个人信息保护法》陆续出台,道出数据安全和个人隐私保护的迫切。
何谓「隐私计算」技术?
隐私计算的原本含义是保护数据本身不对外泄露的前提下实现数据分析计算的技术集合,达到对数据“可用、不可见”的目的。其源自于图灵奖获得者、中国科学院院士姚期智先生曾于1982年提出著名的百万富翁问题: 两个富翁的财产是1到10之间的证书,如何在不透露自己财产的情况下比较谁更富有?对于处理这类棘手的“隐私数据”带来的问题的方法,我们称其为「隐私计算」。
现有隐私计算技术能够防止隐私泄露风险吗?
目前的隐私计算技术分为三类:
1)硬件层面:可信执行环境 (Trusted Execution Environment, TEE)
在计算平台上通过软硬件方法设计出一个安全的计算区域,可以保证在此区域内进行运行的代码及数据的隐私性和完整性。通过硬件提供物理层面的安全隔离和计算环境,即使设备底层的基础软件或系统被恶意攻击破坏,也不会影响到数据和代码安全,通过加密算法验证和计算隐私数据,参与方可通过验证整套代码来确认可信执行环境的安全性。
2)密码学层面:安全多方计算 (Secure Muti-Party Computation, MPC)
姚期智先生提出的百万富翁问题引发了全世界密码学专家的思考,在提出该问题四年后,姚期智先生提出了混淆电路解决了这个问题,随后开启了安全多方计算的研究热潮,现如今基于不经意传输、秘密共享等方式提出了BMR、GMW、BGW、SPDZ 等安全多方计算框架,多方安全计算有严格的安全性理论基础,具有非常广泛的应用前景。
3) 数据建模层面:联邦学习 (Federated Learning, FL)
在传统建模过程中,用户数据需要上传到平台服务器端才能进行建模,但是这种数据集中化带来了巨大的隐私风险挑战,在联邦学习建模过程中,用户只需要将计算的中间结果加密后发送给中心服务器即可完成建模和更新。数据不离开设备本地,意味着原始数据所有权被牢牢掌握在使用者手中。
为了适配不同的应用场景,应当结合不同的隐私保护技术进行实践。全球知识产权综合信息服务提供商IPRdaily与incoPat创新指数研究中心联合发布“全球隐私计算技术发明专利排行榜(TOP100)”对截至2022年3月8日,全球公开的隐私计算技术发明专利申请数量进行统计分析:
上表中入榜前10名企业主要来自中国和美国,其中蚂蚁集团以1152件专利占据领先优势,远高于其他企业。国家的法律条例作为行业基本准则,也要求着企业跟进配套技术。为了便于大家理解目前的隐私保护技术发展进度,以蚂蚁和微众银行为例介绍一下他们做的工作:
2019年,蚂蚁推出第一个面向可信执行环境的隐私计算操作系统Occulem,解决了云端TEE技术兼容性问题,降低了隐私计算开发门槛;2022年2月,蚂蚁在WAIC2022 上海人工智能开发者大会中介绍了以安全、开放为核心设计理念,自主研发的通用隐私计算框架“隐语”,内置 MPC、TEE、同态等多种密态计算虚拟设备供灵活选择,提供丰富的联邦学习算法和差分隐私机制;
2021年10月,蚂蚁集团隐私计算一体机已通过了中国信息通信研究院泰尔实验室测评。
2022年3月,全球最大的专业技术组织IEEE-SA近日全票通过了蚂蚁隐私计算一体机国际标准立项。随着国际标准的推进,蚂蚁集团正在着手准备隐私计算一体机的国际权威测评。
事实上如果大家留心注意的话,阿里巴巴达摩院在发布2022年十大科技趋势时便已经将全域隐私计算纳入其中,数据安全保护与数据流通是数字时代的两难问题,破解之道是隐私计算。随着专用芯片、加密算法、白盒化、数据信托等技术融合发展,隐私计算有望跨越到海量数据保护,数据源将扩展到全域,激发数字时代的新生产力。
另一家公司微众银行AI部门于2019年发起了开源项目FATE,提出了首个工业级联邦学习计算框架,其架构如下:
谈及联邦学习无法绕过的开源框架FATE,杨强老师作为国内联邦学习技术启蒙学者之一带队设计并实现了FATE框架,目前该框架在Github已有4.1k Stars,目前在金融、医疗和政务等领域也有项目应用。
但在另一个问题下,专业人士也有提出关于隐私计算等技术目前实践上的难题:隐私计算/多方安全计算/联邦学习问题?
(链接:https://www.zhihu.com/question/481587447)
现有隐私计算技术处于发展中,基于密码学的同态加密等技术在安全性上已经得到数学证明,然而其运行效率还不尽如人意,为了确保达到安全的目标,隐私计算需要针对性地设计复杂、昂贵的密码学协议,造成密文体积大,计算速度很慢,阿里在国际安全研究顶会USENIX Security Symposium 2022上发表的《Cheetah: Lean and Fast Secure Two-Party Deep Neural Network Inference》相较于之前表现最好的微软的 CryptFlow2 进行测试后发现速度提升了5倍,里实用迈出了一大步;
相对而言,保障数据安全的联邦学习在实践过程中能够满足一定的效率和时延要求,然而阿里巴巴双子实验室的洪澄博士组的文章中写到,对于不少的联邦学习模型,中间计算结果不加密的方案还是很有可能反推计算原始数据的(https://arxiv.org/pdf/2011.09290.pdf)。
在聊完技术方面存在的问题后,给大家讲一个有趣的现象:密码服务公司SplashData调查并公布了2018年度最糟糕密码列表。其中「123456」和「password」连续五年位列最弱密码排名的第一位和第二位。正如木桶原理所说,系统整体的能力体现在最弱的短板上,因此在数据安全的方面需要树立正确的隐私保护意识。将”大数据的权力“关进技术的笼子是我们的责任,在享受大数据这把双刃剑带给大家帮助的前提下,通过技术的提升保护大家,减少隐私暴露对个人的伤害。
最后,经过最近事件的影响,非常庆兴目前国内隐私计算的研究处于国际领先水平,无论是微众的FATE框架、蚂蚁「隐语」隐私计算平台还是华为对隐私计算的专利投入和转化,都让我们在技术国产化、科技自强的道路上不断前行,隐私技术研究兹事体大,国产可控的要求势必推动着行业的不断发展,希望更多企业承担起社会责任感,实现隐私技术实用化,将数据视作关键的生产要素,并通过跨领域、跨行业、跨地域的机构间数据流通释放要素价值。
隐私计算最近这些年是研究的热门,在全球数据保护条例陆续出台的背景下,相关的研究也越来越多。我国很多科技企业也在这方面投入了非常多的资源,研究专利数量甚至霸榜了全球隐私计算技术发明专利排行榜。
本回答给大家简单科普下隐私计算相关技术原理以及国内隐私计算现状。
上个月,Android系统正式推出隐私沙盒(Privacy Sandbox), 意在解决精准广告定位和用户隐私之间的平衡。这项技术的推出,引起了业界热烈讨论,也存在一些争议,使得隐私计算技术的应用再次被提上台面。
隐私计算指的是在保证提供方的数据不被泄露的前提下,对数据进行利用和计算的一系列相关技术。就好像厨师有个秘方可以做出独一无二的蛋炒饭,厨师可以利用自己的厨艺开餐厅,但不能泄露自己的秘方。这里秘方就像数据,而炒饭,就是数据提供的价值。而隐私计算,就是让顾客无论怎么分析炒饭的成分,也难以还原秘方的算法。
当我们讲到隐私计算,主要会涉及同态加密、多方安全计算、差分隐私、联邦学习、零知识证明等技术领域。这里稍微讲讲这几种技术的原理:
看完上面的技术科普后,你现在能理解,这些技术对于计算过程中隐私保护是多重要了吧。
随着监管力度加大,各大科技公司越注重保护数据安全和用户隐私。2021年,《数据安全法》、《数据安全管理条例》、《个人隐私保护法》陆续出台了,保护数据的安全和个人隐私,已经是大势所趋了。联邦学习、差分隐私和加密计算等保护隐私的算法在过去几年也一直在发展,这些算法既能保护数据安全,也能打破数据孤岛,让数据发挥最大效果的同时,防止数据外流。
事实上,很多公司在这些法规颁布之前几年,就已经在做相关研究了,毕竟春江水暖鸭先知。虽然中国企业在全球隐私计算技术发明专利排行榜霸榜是不久前的新闻,但相关研究其实很早就开始了。例如榜首的蚂蚁集团,其实在2016年就开始构思「共享智能」,以确保参与方的隐私不泄露。
我在过去两年的时间里,在多个回答里一直提到隐私计算,在我看好AI发展方向中,隐私计算是一个,隐私计算是未来的趋势。
尽管中国企业登顶了,但并不是说现在中国科技企业做得够好了。我希望隐私计算这个赛道能更卷些,同时相关技术落地更快些,这样对于用户隐私,企业健康发展,社会信任关系,都是有益的事情。
暗合国人心态:能贪是一种能力,而清廉是一种迂腐。法治与规则则只是御下的工具——被其束缚之人自然比不上操弄规则的人。
至于说工作能力,一个格格不入的人能身居高位,能力上怎么可能反而不如行贿上去的贪官?但是舆论要这么去引导,只能说现在的社会,普遍认为贪污不可治,只能尽量“为我所用”,一厢情愿罢了。