Author: B. McMahan, E. Moore, D. Ramage, S. Hampson and B. A. y. Arcas
Title: Communication-Efficient Learning of Deep Networks from Decentralized Data
BookTitle: Proceedings of the 20th International Conference on Artificial Intelligence and Statistics Proceedings of Machine Learning Research 2017
Year:2017
原文网址:http://proceedings.mlr.press/v54/mcmahan17a.html
现如今的深度学习可以已经在各个方面有着广泛的应用,但是一个显著的问题是这些深度学习算法都需要大量的数据进行训练。现在的移动设备上有许多的传感器,再加上各种移动设备经常被人们携带,这意味着移动设备上有大量的适合进行学习训练的数据,但是一个问题是这些数据往往是私有的,而且是用户不愿意进行共享的,再加上数据量庞大,因此是不可能将这些数据上传到数据中心的,不能用传统的深度学习方法进行训练。因此作者提出了一种训练模型的替代方法,叫做联邦学习。
它允许用户在不需要集中存储数据的情况下,从这些丰富的数据中获得共享模型的好处。因为学习任务是通过一个由中央服务器协调的参与设备的松散联合来解决的,因此被称作联邦学习。每个客户机上都有一个从未上传到服务器的本地训练集,都由对服务器维护的当前全局模型进行更新计算,并且只传递此更新到服务器。这种方法的一个主要优点是将模型训练与直接访问原始数据的需求分离开来,虽然负责协调训练的机器仍然需要一些信任,但是对于可以根据每个客户端上可用的数据指定训练目标的应用程序,联邦学习可以通过将攻击面仅限于设备而不是设备和云来显著降低隐私和安全风险。
这篇文章的主要贡献是:1)将移动设备分散数据训练问题,作为一个重要的研究方向;2)选择出了一种可应用于此设置的简单实用的算法;3)对提出的方法进行了广泛的实证评估。引入了联邦平均(FederatedAveraging)算法,它将每个客户机上的局部随机梯度下降(SGD)与执行模型平均的服务器相结合。对该算法进行了大量的实验,证明了该算法对不平衡和非lID数据分布的鲁棒性,并能将在分散数据上训练深度网络所需的通信次数减少若干个数量级。
与分布式优化问题相比,联邦优化问题有着明显的区别:(1)用户数据非独立同分布:特定的用户数据不能代表用户的整体分布;(20)用户数据量不平衡: 数据量不均衡,因为有的用户使用多,有的用户使用少;(3)用户(分布)是大规模的: 参与优化的 用户数>平均每个用户的数据量;(4)用户端设备通信限制: 移动设备经常掉线、速度缓慢、费用昂贵。
因此在联邦优化问题中,占据成本的主要因素可能不是计算成本,而是通信成本,作者提出了的方法是使用额外的计算来减少通信次数,并提出了两种方法:(1)提高并行性:在每个通信回合之间使用更多的客户端独立工作;(2)增加每个客户端的计算量:不像梯度计算那样执行简单的计算,而是每个客户端在每个通信回合之间执行更复杂的计算。
作者进行了实践,结论是:各种模型架构(多层感知器,两种不同的卷积神经网络, 两层字符LSTM和大规模词级LSTM)的实验结果表明,当FedAvg使用相对较少的交流轮次来训练高质量的模型时,联邦学习是实际可行的。
我认为作者提出的联邦学习思路是一种很好的解决如今数据不足和隐私安全问题的方案,存在的一些不足或者说接下来的研究方向可以是:(1)隐私安全问题:本地客户端仍然需要对中心服务器发送数据,如何保证不会从这些数据倒推出原始数据的相关特征;(2)通信成本问题:是否还有更好的方法降低通信成本?(3)安全攻防问题:如何抵御部分恶意用户发送垃圾数据,影响模型精度?