国内篇:
Qiang Yang, Tianjian Chen, Yang Liu, Yongxin Tong.
微众银行开源 FATE 框架.
《 Federated machine learning: Concept and applications 》
《 Secureboost: A lossless federated learning framework 》
Jiankai Sun, Weihao Gao, Hongyi Zhang, Junyuan Xie.
字节跳动开源 FedLearner 框架.
《Label Leakage and Protection in Two-party Split learning》
Yi Li, Wei Xu.
华控清交 PrivPy 多方计算平台
《PrivPy: General and Scalable Privacy-Preserving Data Mining》
Hongyu Li, Dan Meng, Hong Wang, Xiaolin Li.
同盾科技 同盾志邦知识联邦平台
《Knowledge Federation: A Unified and Hierarchical Privacy-Preserving AI Framework》
《FedMONN: Meta Operation Neural Network for Secure Federated Aggregation》
Tongxin Li, Yu Ding, Yulong Zhang, Tao Wei.
百度 MesaTEE 安全计算平台
《 gbdt-rs: Fast and Trustworthy Gradient Boosting Decision Tree 》
矩阵元 Rosetta 隐私开源框架
百度 PaddleFL 开源联邦学习框架
蚂蚁区块链科技 蚂蚁链摩斯安全计算平台
百度 百度点石联邦学习平台
富数科技 FMPC 安全计算
......
香港科技大学
《 FedVision: An Online Visual Object Detection Platform Powered by Federated Learning 》
《 BatchCrypt: Efficient Homomorphic Encryption for Cross-Silo Federated Learning 》
《 Abnormal Client Behavior Detection in Federated Learning 》
北京航空航天大学
《 Federated machine learning: Concept and applications 》
《 Failure Prediction in Production Line Based on Federated Learning: An Empirical Study 》
国际篇:
H. Brendan McMahan. Daniel Ramage. Jakub Konečný. Kallista A. Bonawitz. Hubert Eichner.
Google 提出 Federated Learning.
《 Communication-efficient learning of deep networks from decentralized data 》
《Federated Learning: Strategies for Improving Communication Efficiency》
《Advances and Open Problems in Federated Learning》
《Towards Federated Learning at Scale: System Design》
《Differentially Private Learning with Adaptive Clipping》
......(更多联邦学习相关文章请自行搜索 Google Scholar)
Cornell University.
Antonio Marcedone.
《Practical Secure Aggregation for Federated Learning on User-Held Data》
《Practical Secure Aggregation for Privacy-Preserving Machine Learning.》
Eugene Bagdasaryan, Andreas Veit, Yiqing Hua, Deborah Estrin, Vitaly Shmatikov.
《How To Backdoor Federated Learning》
《Differential privacy has disparate impact on model accuracy》
Ziteng Sun.
有很多,但除了微众、阿里以外,别的机构都是拿开源的框架应用起来,谈不上研发。商业市场上这无可厚非,如果题主是被导师捉去做联邦学习选题的话建议看微众的FATE,下面简要讲几个联邦学习技术的入场玩家。
平安科技
平安科技在联邦学习这块,业务上的应用很全面。讲讲“蜂巢”,由平安科技“开发”的一个联邦学习平台。除了常规的功能之外,蜂巢平台能够支持更多的深度学习框架。蜂巢宣称可实现的有:提供基于联邦学习的医疗影像数据平台、扩接融合用户特征与个性推荐系统和动态车险定价模型系统等。
主要特性,支持多种深度学习框架,如TensorFlow,Keras,Pytorch,MXNet等。
谷歌
谷歌虽然不是国内的,不过作为首个提出联邦学习概念人,不得不提一嘴。TensorFlow
Federated (TFF) 是一个开源框架,用于对分散式数据进行机器学习和其他计算。我们开发 TFF 是为了促进联合学习 (FL) 的开放研究和实验,FL 是一种机器学习方法,使我们能够跨多个参与客户端训练共享全局模型,并将训练数据保存在本地。例如,FL 已被用于训练手机键盘的预测模型,但不会将敏感的输入数据上传到服务器。
开发者可以利用借助 TFF 对其模型和数据模拟所包含的联合学习算法,以及实验新算法。TFF 提供的构建块也可用于实现非学习计算,例如对分散式数据进行聚合分析。
借助 TFF,开发者能够以声明方式表达联合计算,从而将它们部署到不同的运行时环境中。TFF 包含一个用于实验的单机模拟运行时。
百度安全
MesaTEE泛在安全计算平台让隐私保护的大数据分析以及机器学习成为可能,实现“计算皆可上云”,打破数据孤岛,让大数据在保护隐私的前提下发挥最大价值。除了兼容当前主流的大数据和AI框架,MesaTEE能支持Intel SGX/AMD SEV/ARM TrustZone/Risc-V等诸多平台,也能提供无硬件支持的高对抗可靠执行环境,可应用于广泛的场景。
主要特性,可信执行、安全性远程验证、强化内存安全、安全节点不可绕过、FaaS服务、端到端加密。
最后来讲下目前我比较感兴趣的两家:
微众银行
如题主所说,微众确实在国内把联邦学习经营的不错。上文提到的FATE,就是是他们开源的一个联邦学习框架,这个安全的计算框架是其打算用来构建联邦学习(人工智能)生态用的。目前来看,它支持实现多个计算协议的兼容,以及类似欧洲GDPR之类的隐私方案要求下的合规化。采用的可拓展模块化工程思维,使得建模可以“流水线式”,提供可视化、调度系统等拓展包,较易上手,性能也非常出色。
主要特性,支持多方安全计算模式下的逻辑回归、BoostingTree,深度学习等多种机器学习算法,同时提供加密方式,支持同态加密、秘密共享和哈希散列等多方安全计算机制。
FATE目前的落地应用方案较多,车险、智慧城市、金融风控、智慧零售等都有运作中的方案,也听闻有些高校导师直接点名做这个研究方向。
github链接:https://github.com/FederatedAI/FATE
阿里(蚂蚁金服)
蚂蚁金服其实不算是“联邦学习”,而是称为“共享机器学习”,但因为逻辑以及目标是一致的,所以放进来也讲讲。共享机器学习(Shared Machine Learning)的定义:在多方参与且各数据提供方与平台方互不信任的场景下,能够聚合多方信息并保护参与方数据隐私的学习范式。
主要特性,对比其他的方案兼容更多的安全计算技术,与联邦学习最大的差异在于数据是流出本地的,通过兼容更多的加密技术来保证其安全性。
共享机器学习弊端额多,例如在实践层面,传输数据的通讯是一笔挺大的开销,尤其是加密数据的通讯吃的带宽成本很可观。而TEE技术(Trusted Execution Enviroment 可信执行环境)受限制的也很多,例如能够支撑的算力合存储空间都非常受限,很难适应深度学习的需求、不支持GPU等问题,更要命的是目前云端可用的TEE只有Intel一家供应商,某为的事件之后,这样的“垄断”就很值得警惕了。
而理论层面,逻辑上只要是数据有离开本地的行为,是存在泄密风险的,毕竟没有无法破解的加密。例如你能保证自身的环境安全,你保证的了可信执行的第三方安全吗?
以上,是几家大厂对联邦学习的布局,认识的有些导师是有点名要求研究方向选联邦学习,但未在官方渠道公布,所以这些科研机构就不写进来了。