这个问题太适合我了,我是正在做毕设的准研一新生,方向是个性化联邦学习(personalized federated learning)。因为还没正式入学所以用不了组里的计算资源,不过目前靠着本科导师这边的一张卡都已经够用了,这个方向无疑是资源有限的不错选择。
首先先介绍一下联邦学习。联邦学习可以看一种特殊的分布式机器学习,不过它在数据分布上每个节点数据不独立同分布(non-iid),而且在数据隐私性和通信代价等问题上关注更高。它虽然在优化算法上要求分布式,但是目前的研究都是基于模拟的,在单机上就能模拟运行很多个client了。而且因为联邦学习是一门关于优化算法、模型压缩等的学问,目前主流方法在每个client上使用的基准模型大多是简单而轻量的模型,如ResNet、stacked-LSTM、MobileNet等,我现在用一张V100几乎都能跑近年来所有论文的实验了。
个性化联邦学习主要是出于传统联邦学习数据non-iid的问题而产生。在传统的联邦学习中,每个节点任务不共享数据,但是可以共享参数/梯度等信息(可能会经过某种加密),以此联合训练出各一个全局的模型。但是由于数据不独立同分布,每个模型训练出的局部模型差异会很大,就会使得构建一个全局的、通用的模型难度很大。比如同样一个下一个单词预测的任务,同样给定"I love eating,",但对于下一个单词每个client会给出不同的答案。
个性化联邦学习的思路是,我们不求训练出一个全局的模型,使每个节点训练各不相同的模型。目前该领域采用的主要手段是联邦迁移学习(federated transfer learning, FTL)、联邦多任务学习(federated multi-task learning)、联邦元学习(federated meta-learning)、联邦小样本学习(one-shot federated learning)等。近年来该领域的论文也非常多了,可以看见是一个不错的方向。如果题主有迁移学习/小样本相关经验,或者有大规模数值优化、分布式机器学习相关经验,那我觉得入坑非常不错。
这里推荐一些近年来相关的文章:
[1] Kulkarni V, Kulkarni M, Pant A. Survey of personalization techniques for federated learning[C]//2020 Fourth World Conference on Smart Trends in Systems, Security and Sustainability (WorldS4). IEEE, 2020: 794-797.
[2] Li T, Hu S, Beirami A, et al. Ditto: Fair and robust federated learning through personalization[C]//International Conference on Machine Learning. PMLR, 2021: 6357-6368.
[3] T Dinh C, Tran N, Nguyen J. Personalized federated learning with moreau envelopes[J]. Advances in Neural Information Processing Systems, 2020, 33: 21394-21405.
[4] Zhang J, Guo S, Ma X, et al. Parameterized Knowledge Transfer for Personalized Federated Learning[J]. Advances in Neural Information Processing Systems, 2021, 34.
[5] Marfoq O, Neglia G, Bellet A, et al. Federated multi-task learning under a mixture of distributions[J]. Advances in Neural Information Processing Systems, 2021, 34.
[6] Dennis D K, Li T, Smith V. Heterogeneity for the win: One-shot federated clustering[C]//International Conference on Machine Learning. PMLR, 2021: 2611-2620.