学术圈回答一波,我们在知乎组了一个社群,群里现在有40+位硕士博士研究生,群里一部分来自中国各大211与985高校,武大、中大、成电等,另一部分是C9高校的学长、国外顶尖高校的学者,北大、浙大、西交、帝国理工、悉尼大学等,研究的领域也是各个方面,从区块链应用到跨链,从存储到联邦学习,从TEE到共识等等。
前段时间在群里,看到师兄分享了零壹智库的研究报告:《开启新纪元,隐私计算在金融领域应用发展报告(2021)》,报告95页,记录了很完整的隐私计算的发展历程,这篇文章看完后,我想分享几个比较有启发的点,内容跟图片主要引用这份报告。
回答这个问题,我们要把目光放到大洋彼岸的美国。
报告中指出,从2016年开始,Facebook在对外的广告合作中特别关注隐私保护问题,Facebook 广告的用户数据部门要与各类数据供者展开密切合作,但同时又要确保数据不被泄露。
Facebook为什么会这么做呢?
因为在2015年4月,美国伊利诺伊州的民众对Facebook提出了诉讼,诉讼的关键在于,Facebook在收集和存储用户的生物特性数据时,没有明确地告知用户。经历了多年的诉讼之后,Facebook最终选择了和解方案,罚金支付总额达到了6.5亿美元。
2018 年 3 月,媒体曝光,Facebook 5000 万用户的信息被泄露。此事在世界范围内激起了轩然大波。彼时,Facebook 向美国联邦贸易委员会(FTC)缴纳了 50 亿美元的罚款,
2018年第四季度,Google旗下社交网站服务Google+也爆出了安全漏洞,把Google也推上了法庭。
(报告中其他事件这里就不赘叙)
与此同时,欧洲议会于2016年4月通过的《欧盟一般数据保护条例(General Data Protection Regulation,GDPR),于2018年5月25日在欧盟的28个成员国生效。该条例适用于所有欧盟成员国的个人信息保护,任何收集、传输、保留或处理涉及到欧盟成员国内的个人信息的机构组织均受该条例的约束。
接二连三事件的发生,让巨头们开始重视隐私数据方面的技术,Facebook开始在隐私计算的应用方面采取实际的行动,而Google则在自己的博客文章中首次引入了“联邦学习”的概念去保护用户的隐私数据。
因此,隐私计算,不是技术人员无中生有研发的,而是出现问题后的解决方案。
相信你也有这样的体验,经常被陌生电话骚扰,问你买房吗?买车吗?贷款吗?等等,骚扰短信也是层出不穷,一会推送赌博网站,一会各种电商店家莫名关心。
这些年,我们的个人信息不断被非法获取,泄露、滥用,甚至还出现了倒卖个人信息的“黑产”,侵犯个人信息与网络诈骗及敲诈勒索等犯罪行为合流。
基于这个情况,国家开始出台相应的法律法规。
报告中指出,2021年两部法律的实施,标志着个人信息保护的法制治理进入系统化和专门化的新阶段,将进一步提升整个社会的守法意识,也将促进数据相关企业严守业务边界,合法合规经营;
关于《数据安全法》,我看了一些专家的解读,其中值得我们了解的点是:
《数据安全法》主要规定了
企业收集和处理数据需要数据者的同意
企业不得超约定范围收集、处理和使用数据
数据所有者需要有权利删除个人的数据
法律背后,也有整个大环境的趋势影响。2019 年,全世界爆发新冠疫情,很多业务被迫走上了线上,业务从线下迁移到线上的过程中,全社会更加认识到数字化发展的重要性,2020 年开年之后出台的一系列政策,也对隐私计算市场的发展形成有力推动。
这当中最值得我们关注的,就是国家在2020年4月份中央出台的文件,第一次把数据纳入为生产要素这一层面,这一定义非常重要。
报告中提到,通过这些数据,我们可以看淡法律和政策环境的变化,一方面使得对个人隐私的保护成为持续稳定的市场需求,而非短暂的应对监管的行动;另一方面使得对数据价值的充分应用和挖掘的行为受到正面肯定。
因此,隐私计算技术的发展,背后是国家与个人的诉求。
报告中对隐私计算的定义如下:
隐私计算技术是在保护数据本身不对外泄露的前提下,多个参与方通过协同对自有数据处理、联合建模运算、分析输出结果、挖掘数据价值的一类信息技术。作为跨学科技术,隐私计算涉及密码学、机器学习、神经网络、信息科学,同时可与人工智能、云计算、区块链分布式网络等前沿技术融合应用,为数据保护和价值融合提供技术可行性。
技术实现原理,隐私计算的分类方式如下:
一种是将隐私计算分为两个方向——可信硬件和密码学;
另一种是将隐私计算分为三个方向,即分为密码学、可信硬件和联邦学习三个流派。
在这些分类中,由于组建的学术群有几个博士师兄是做联邦学习的,就对联邦学习了解的比较多。联邦学习是由谷歌在官方博客中发文提出,该技术实际上是一种加密的分布式机器学习技术,各方参与方可在不披露底层数据和其加密形态的前提下共建模型。
举个不恰当的例子,我们输入法关键词连接,用的就是联邦学习,系统安装一个自动学习的系统,让我们键盘输入的时候自动学习关键词的连接,不需要将数据传送给到企业,从而达到服务客户的目的。
通过这个例子,我们大概可以感受到,隐私计算的最终目的就是实现数据的“可用不可见“,让企业可以使用数据完成业务,但是看不见数据,从而解决数据泄露等问题。
第一个行业是金融行业。
报告中指出,在金融机构的产品营销环节,通过应用隐私计算技术,可以利用更多维度的数据来为客户做更加精准的画像,从而提升精准营销的效果。同时也可以帮助金融机构通过将多方数据联合起来做出决策分析,可以在信用等级、降低多头信贷跟欺诈等方面做出贡献。
第二个行业是医疗行业
目前医院不会把很多病历信息共享给其他医院,这些数据表面是简单的病历信息与消费信息,背后牵扯到很多利益,很多数据在自己手里才能做进一步的大数据分析或者研究,从而让自己的产品或者技术在行业处于领先。如果只是用一些开源的数据,那研究就远远落后了。
而如果能够借助隐私计算,就可以通过多方合作对数据进行融合应用,在分级诊疗、医疗资源共享、医药研究以及辅助诊疗提高准确度等方面发挥作用提供保障。
在报告的45页中,提到了中国隐私计算专利申请情况,纵观中国在隐私计算领域的专利申请情况,大致可以分为3个阶段。
阶段一(2011 年之前),中国每年申请的隐私计算专利不超过 100 件,每年参与专利申请的公司不超过 60 家。在这个阶段,虽然隐私计算相关概念还未提出,但是相关密码学技术已经出现。
阶段二(2012~2015 年),中国每年隐私计算专利申请数量超过 100 件,参与专利申请的公司数量也开始突破100家。
阶段三(2015~至今),中国每年隐私计算专利申请数量呈现爆发式增长,在2019~2020 年每年专利申请数量保持在 1,000 件以上,参与公司规模也均在 400 家左右。
看到这里,我自己有一些不成熟的思考。
雷军之前提到:站在风口上,猪都可以飞起来。这些年我总是会留意把眼光放在风口上,在没有看到这份报告的时候,我总是会觉得这些企业好幸运,可以在遇到风口,扬风起航。
其实,站在风口上,猪都可以飞起来,这句话的重点不是寻找风口的位置,而是自己能不能站在风口上面。如果没有能力、阅历、知识作为支撑,就算登上风口,很快就会摔下来。
听到这你可能会问,那是不是能力、阅历、知识足够了,就可以飞起来呢?
答案:不是的,这个时候还要靠运气。
前段时间听刘润老师的演讲,里面引用到了一张ppt,很有启发
是的,任何行业的成功,都是需要运气存在的。
如果没有整体环境的需求、大家对隐私的重视、巨头们的技术推动等等方面,可能今天隐私计算这门技术是不会出现在我们面前的。而当这些都存在之后,那些从一开始就专注于隐私计算的企业,他们深耕其中,日拱一卒,在时代的召唤下,才有了登上历史舞台的机会。
以上就是我观看整份报告的收获,更多内容大家可以去看零壹智库的研究报告:《开启新纪元,隐私计算在金融领域应用发展报告(2021)》(侵权立删)
如果您是对区块链技术感兴趣的,可以点赞+关注呀,后期会做出更多的分享。
关于学术群,如果您是区块链方向的硕士或者博士研究生,实验室整体是在做区块链方向的,国内外高校都可以,研究生二年级起步确定了方向,博士最少也有一年的接触,我邀请你加入我们,跟我们一起交流讨论,互通有无。
私聊跟留言的人过多,我拜托了ID名称为:富士山下,西交研究生师弟去私聊大家。
我们社群还有一个专栏,感兴趣可以看看呀
走在西方前面是不太合理的说法。
关注下Google、APPLE等大厂的动态,他们在隐私计算/联邦学习方面做的相当不错,国内因为杨强大佬的带领走了一条纵向联邦/ToB的路线,但是也不至于走在前面,由于一定开销和损失,应用面还是偏窄。
MPC/纵向机器学习方式,美国在九十年代、2000年初就发展的相对比较成熟,可以参考PPML的发展历程,所以也一直有老一辈学者觉得联邦学习的定义有“炒冷饭”之嫌。
至于隐私计算的其他技术,比如差分隐私等,在国外已经有相对较多的工业探索,而国内还刚处于萌芽期,关注下Google scholar等平台,会注意到国外的联邦学习/差分隐私/MPC等领域的文章,数量和质量都比国内要高。
但是也不用灰心,星星之火可以燎原,我相信给中国人一些时间,应该会弯道超车。
————————————————————————————————————
再补充一点点~
关于问题本身,为什么隐私计算在中国这么火的原因,如同上述所说其实并不是仅仅在技术方面中国的发展速度较快,更多还是以社会大环境为主;
中国互联网巨头发展这么久,监管者并无从法律层面对巨头们收集的数据进行约束,因此各家的数据成了各家私有财产的一部分,产生数据孤岛,恰逢纵向联邦学习兴起,所以才有了纵向联邦学习(两家或以上的企业数据不出本地但可以联合建模)开始流行的土壤;
另一方面,不仅是为了逐利,欧盟为代表的GDPR也着实的开始落地,观察近几年美国大公司在欧洲的巨额罚款可知,欧盟对于用户隐私保护的诉求和要求都是非常高,因此国内也逐渐有用户隐私保护的条约限制在兴起,各大厂当然也在为这片蓝海未雨绸缪着。
综上,一是大环境条件逐渐完善,数据联合建模商业化需求提升;二是法规合规逐渐严格,也是为将来数据的“可用不可见”来做技术储备,才有了隐私计算之火的重新燃起。
所谓隐私计算(Privacy-Preserving Computation)[1],就是要实现数据信息的“可用但不可见”。也就是在训练模型、统计数据信息等应用中,执行方不能知道或者推导出数据对应的实际主体的情况。在当前各方数据保护越来越严格情况下[2],隐私技术具有重要意义,是实现数据互信的基础路径之一。但其原理和应用目前存在明显的局限性,不存在完全取代非隐私计算的可能性,特别是在比较复杂的就算场景,比如 深度学习。
实现 隐私计算目前主要有三种技术路线:包括 可信执行环境(trusted execution environment, TEE)[3], 多方安全计算(Secure multiparty computation, MPC / SMPC) 和 联邦学习(Federated Learning, FL). 具体来看:
可信执行环境是指在硬件或者软件环境中(以硬件环境为主,可实现性最好)划归一个独立的区域,让系统的其他进程无法访问,而只有经过授权的访问才能允许通过。硬件可信执行环境是目前最主要的路径,但其基础变成需要硬件方的支持,存在一定的门槛。软件可信执行环境目前应用较少,还需要一定验证[4][5].
硬件可信执行环境目前主要有Intel SGX[6], ARM TrustZone和AMD SEV. 这些平台具有理论上的可信性,但是其使用授权掌握在厂家手中,在当今的技术斗争时代,这种设计对于国内的应用来说,其安全性完全不可控。可信执行环境是三种主要路径中可用性最好,算力性能损失最少的,但是其可控性非常差。国家国防安全、金融安全和基础信息安全服务最好不要使用目前的硬件可信执行环境进行隐私保护计算[7]. 另外,由于硬件可信执行环境技术上的不开放性,其技术迭代和漏洞补全完全由硬件厂家掌控,一旦用上,后续升级维护上存在一定风险。
多方安全计算是由姚期智最早提出的[8][9]. 主要是使用密码学技术对计算过程进行加密,以解决保密性和共享性的矛盾[10]. 多方安全计算历史最久,技术实现路径最多样。在常用的加减乘除计算中,同态加密(Privacy Homomorphisms)[11]是应用最广的。
在同态加密中,如果满足 则称为加法同态,如果满足 则称为乘法同态。满足加法同态和乘法同态的算法主要有Paillier密码系统[12]和Benaloh密码系统[13][14]. 在同态加密中,基本的操作办法包括引入随机数、利用椭圆线的性质、指数方法等。同态加密支持无密钥方对密文的计算,但每一步计算过程都涉及到倍数次的通信过程和计算过程,特别是全同态加密(同时满足加法和乘法同态)。在复杂的计算过程中,比如softmax函数,其计算开销和误差累积情况都会严重恶化。这导致在深度学习中,即便不考虑计算和通信成本的情况下,基于同态加密的他方数据获取后进行计算对模型性能的提升,常常不足以抵消加密过程误差累积造成的性能损失,这是多方安全计算目前在深度学习应用中最为尴尬的现状——不用他方数据性能更好,这彻底否定了多方安全计算的应用价值。解决这一问题,目前还需要较多的技术攻关。多方安全计算是三者中计算和通信开销最大的,计算场景适用性最窄的,但是可控性和隐私保护水平最好的。
联邦学习是三者中最晚出现的技术路线,其多方联合训练的基本方式来源于传统的分布式计算。
典型的联邦学习包括以下几个过程:
联邦学习算力成本低,类似于边缘计算,但通信成本高,并存在由此导致的通信安全问题。对于训练过程冗长的深度学习模型来说,其通信导致的计算延迟导致模型训练非常耗时耗力。另外,协调方还存在通过梯度推断出参与方数据的可能性。联邦学习在三者中计算成本最低,实现难度居中,可控性好但隐私保护水平最差,适用性居中。
从上面的描述可以看到,目前并不存在一种通用的方法能解决所有场景的隐私计算问题,甚至对于深度学习来说,目前还不存在一种好的方法能完全解决其隐私计算问题。此外,无论哪种方法都涉及到大量的对现有计算算法和软件架构的重构,以及更高的通信成本和计算成本。在实际场景中,常常会有通过隐私计算获取的数据对性能提升的贡献小于计算误差累积造成的性能损失的情况,再扣减暴增的计算成本和通信成本,其应用价值常常不够乐观。
如果没有监管合规方面的强制性因素,企业方 特别是大型平台 没有足够的动力去推动其应用。
2020被誉为“隐私计算元年”,《数据安全法(草案)》、《网络数据安全标准体系建设指南(征求意见稿)》、《电信和互联网行业数据安全标准体系建设指南(征求意见稿)》等一系列监管政策相继出炉,数据安全问题备受重视,隐私计算也迎来了更大的发展突破。
身处大数据时代,个人信息被泄露的概率大大增加,公民们个人信息的保护意识也大大增强,更加重视自我隐私。
隐私计算受到大数据融合应用和隐私保护的双重需求驱动,也是目前国内外政策法规的必然要求。国内市场规模将快速发展,三年后技术服务营收有望触达100-200亿人民币的空间,甚至将撬动千亿级的数据平台运营收入空间。
目前国内的隐私计算玩家各有差异,有来自于大型互联网公司,也有独立创业公司,还有来自于垂直行业的机构。各家的资源生态、技术路线和行业布局均有不同,由此产生了不同的战略打法。
互联网大厂体系玩家的主要优势是丰富的数据生态和应用组件;产业背景公司的主要优势是垂直行业的专注积淀和应用能力;创业公司的主要优势是中立性和贴近客户的服务能力。决策的关键归根结底还是能否为客户带来足够的、特有的数据源,提供完整方案解决的能力。
在商业模式上,通过搭建平台和运营来实现分润是更被看好的营收方式。由于行业之间的壁垒差异较大,隐私计算的应用平台很可能局限在一个个具体的垂直行业之内,但技术平台还是有望实现跨行业打通。
【【令牌云致力于打造新一代数字身份服务,让身份更可信、让隐私更安全、让连接更便捷!我们现已推出KYC实名认证黑科技,仅需1步、最快2秒完成传统的4步流程,客户转化率从65%提升至90%+。公众号“令牌云数字身份”,欢迎了解~】 】
既然是创业,那咱们可得按照生意的思路来。
有戏么?
有戏,这是目前短视频领域为数不多的明确方向——生活短剧。
但是每个创业者都必须思考一个问题:凭啥是我?
内容创作领域能成的创业者有这么几种类型:
1天生英才的
这种人一下生就主动了吃某个创业方向的饭,稍微做一做就能爆发。
有人天生幽默,张嘴有梗,声音有特色,或者脸长得好看也成。
不过人群里这种比例太少,可遇不可求。
2战绩辉煌的
行业老手,打工时间很长,简历上项目案例1~2页纸都写不下的那种。
内容领域玩到后面也是工业化的军备竞赛,有些人是大厂一路打怪升级,天赋可能稍差,但是拉拢资源、做生意、攒资源能力突出。
科班出身创业,胜率一般比较高。
3市场敏感的
内容行业的特点就是变化快。
我老说追风口不好,只要是因为很多人反应速度太慢,等他们去追的时候基本只有接盘一种可能。
但是市场上确实有风口追得好的人。发现早期市场机会,迅速入局,等到差不多的时间迅速套现出手。
回头还能靠讲课开班收割一拨二茬。
这种玩法到了至高境界,是自己就能造出风口。
说了这么多,每个内容创业者都要好歹想一想自己准备靠什么成功。
想了不一定就成,不想肯定不成,稀里糊涂的赚钱,最后会凭借实力亏回来。
更重要的是进行尝试,看看自己想的到底是不是对的。
比如给自己3个月时间,拍30个视频,看看数据上支不支持自己吃这碗饭。
去年有个大三学生问我全职自媒体,说看了一些大V成长历史颇为感动。按照学习成长方法坚持了半年多。
我问他数据咋样。
每周3篇,阅读数平均没到100。
看了几篇作品,我及时地制止了他,没啥天赋、知识储备不足,多流量不敏感。
大三学生时间有限,还是准备考研更重要一些。
如果是业余爱好,那无所谓了;如果是创业,记得给自己一个止损线。
祝愿这位朋友早日能找到“为啥是我能成功”这一问题的答案。
以上,供参考