联合学习技术研究及算法优化

 2022-04-09 09:04

论文总字数:31764字

摘 要

在联合学习中,移动设备利用本地数据并行地参与机器学习模型的训练,服务器端仅负责统筹成千上万台客户端。因此,用户隐私得到有效保护,端侧的计算资源也得以最大化利用,然而数据异质性问题和系统能耗问题成了当前联合优化算法设计中的两大瓶颈。

本文从数学原理方面阐释了联合设定下优化问题,并提出了一种创新观点:元学习是解决联合学习中两大瓶颈问题的天然选择。针对联合设定下的优化问题,作者提出了一种新的联合学习框架——联合元学习(Federated Meta-Learning,简称FedMeta),并将目前主流的模型无关元学习算法融合到该新框架下,针对公开数据集LEAF和企业私有数据集,同当前性能最佳的联合优化算法开展了对比试验。结果表明,联合元学习框架在保证模型高速收敛的同时,能有效减少通信成本3-28倍,提高模型精度6.23%-23.53%。

关键词:联合学习;元学习;优化算法;深度学习

Abstract

In federated learning, mobile devices use local data to participate in the training of machine learning models in parallel, and the server coordinates thousands of clients. Therefore, user privacy is effectively protected. However, data heterogeneity challenges and system consumption challenges have become the two major bottlenecks in the design of federated optimization algorithms.

This paper explains the optimization problem under the federated setting, and puts forward an innovative idea: meta-learning is a natural choice to solve the two bottleneck problems of federated learning. The author proposes a new federated learning framework: Federated Meta-Learning (FedMeta), and integrates the current mainstream model-agnostic meta-learning algorithms into the new framework. For the public dataset LEAF and enterprise private datasets, a comparative experiment was conducted with the state-of-art federated optimization algorithm. The results show that the federated-meta learning framework can effectively reduce the communication cost by 3-28 times and improve the model accuracy by 6.23%-23.53% while ensuring high-speed convergence of the model.

KEY WORDS: Federated Learning, Meta-Learning, Optimization Algorithm; Deep Learning

目 录

摘 要 I

Abstract II

第一章 绪论 1

1.1 研究背景与意义 1

1.2 研究现状与发展趋势 2

1.3 研究内容 3

1.4 论文组织结构 4

第二章 联合学习技术研究 5

2.1 本章导读 5

2.2 联合学习任务定义 5

2.3 联合网络优化方法 5

2.4 模型压缩方法 7

第三章 元学习技术研究 8

3.1 本章导读 8

3.2 小样本学习简述 8

3.3 元学习任务定义 10

3.4 元学习主要算法 11

第四章 联合学习框架设计 15

4.1 本章导读 15

4.2 联合元学习算法原理 15

4.3 算法实现 16

4.4 实验分析 17

第五章 总结与展望 22

5.1 本文工作总结 22

5.2 主要创新点 22

5.3 未来工作展望 23

参考文献 24

致 谢 26

第一章 绪论

1.1 研究背景与意义

随着 AlphaGo 打败世界顶级围棋选手的新闻登上各大头条,人们开始意识到人工智能技术的强大潜力,并且开始思考如何将它应用在更多领域,其中包括自动驾驶、智慧金融交易、智能医疗等。2019 年的今天,人工智能技术的踪迹几乎遍布了我们生活的每一个角落,为人们带来了极大的便利。但是,现在的人工智能技术很大程度上依赖于海量的标签化数据,例如在训练 AlphaGo围棋机器人时,为了达到卓越的性能,工程师们使用了大约 300000 种游戏的数据作为训练样本。

然而在现实情况下,数据是极其珍贵且难以获得的。2018年5月25日,欧盟出台《数据隐私保护条例》 (General Data Protection Regulation,简称 GDPR)。在这份条例中,个人数据被认定为是神圣不可侵犯的,政府规定那些以商业目的收集用户数据的企业和组织,应该履行向用户声明数据用途的义务。这份条例的实行让许多大数据公司噤若寒蝉,纷纷开始关注如何在确保不上传用户数据至云端的前提下,训练机器学习模型以增进用户使用体验。

其中最具代表性的是 Google 在 2017 年提出一种全新的去中心化机器学习策略:联合学习。相比于传统的机器学习中数据存储和模型训练耦合在单机上的做法,联合学习的不同之处在于众多客户端利用本地数据并行参与机器学习模型的训练,而服务器端仅负责统筹成千上万台移动设备。

联合学习允许在不用事先收集大量标记好的数据的前提下训练更智能的模型,能降低延迟和功率损耗,并且能保证隐私。当被应用在智能移动电子通讯设备,即智能手机上时,这种方法还有另外一个直接的好处:使用联合学习训练的模型可以针对用户使用手机的方式来提供个性化的体验。除了可以用来改进智能手机的使用体验,联合学习还在医疗行业和工业生产制造中有广阔的应用。例如,借助联合学习,之前限于病人隐私问题而无法使用的各种医疗数据就可以在保护病人隐私的前提下,被用来训练有助于医疗诊断的机器学习模型;在传统制造业,厂家可以在不侵犯客户隐私的前提下获知用户在使用产品过程中遇到的实际故障,以此来针对性地改进推出的产品。

联合学习的提出有望解决人工智能技术更进一步大规模投入应用中遇到的实际问题——需要海量训练数据和用户数据隐私泄露。但是,目前联合学习本身还有许多问题亟待解决,例如占用通信带宽较大,设备差异性,计算成本较高等。这些存在的问题也是本文关于联合学习技术讨论的出发点。

1.2 研究现状与发展趋势

联合学习(Federated Learning)的概念最早由Google在2017年提出[26]。受限于移动设备的网络带宽,Google研发出一种联合平均算法(Federated Averaging Algorithm,简称FedAvg)。这种算法和传统的ADMM[25]和SGD[2]等分布式优化算法相比可以减少10-100倍的通信消耗。核心思想是利用现代移动设备中的强大处理器芯片来计算高质量的模型更新,而非简单的梯度迭代。FedAvg有着性能更好的模型更新以及更少的迭代次数,同时还可以减少和服务端的通信频率。

剩余内容已隐藏,请支付后下载全文,论文总字数:31764字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;