什么是联邦学习?定义、分类、框架和应用实例
共 3221字,需浏览 7分钟
·
2022-06-08 19:04
什么是联邦学习呢?举例来说,假设有两个不同的企业A和B,它们拥有不同的数据。比如,企业A有用户特征数据;企业 B 有产品特征数据和标注数据。这两个企业按照上述 GDPR 准则是不能粗暴地把双方数据加以合并的,因为数据的原始提供者,即他们各自的用户并没有机会来同意这样做。假设双方各自建立一个任务模型,每个任务可以是分类或预测,而这些任务也已经在获得数据时有各自用户的认可。那现在的问题是如何在A和B 各端建立高质量的模型。
下载链接:
联邦学习技术白皮书2.0
但是,由于数据不完整(例如企业 A 缺少标签数据,企业 B 缺少特征数据),或者数据不充分(数据量不足以建立好的模型),那么,在各端的模型有可能无法建立或效果并不理想。
联邦学习是要解决这个问题∶它希望做到各个企业的自有数据不出本地,而联邦系统可以通过加密机制下的参数交换方式,即在不违反数据隐私法规情况下,建立一个虚拟的共有模型。这个虚拟模型就好像大家把数据聚合在一起建立的最优模型一样。但是在建立虚拟模型的时候,数据本身不移动,也不泄露隐私和影响数据合规。这样,建好的模型在各自的区域仅为本地的目标服务。在这样一个联邦机制下,各个参与者的身份和地位相同,而联邦系统帮助大家建立了“共同富裕”的策略。这就是为什么这个体系叫做“联邦学习”。
上述实例阐述了联邦学习的基本思想,下文将规范联邦学习的定义,介绍联邦学习的公共价值和商业价值,并阐明联邦学习与现有研究的关系。
联邦学习的定义
为了进一步准确地阐述联邦学习的思想,我们将其定义如下∶在进行机器学习的过程中,各参与方可借助其他方数据进行联合建模。各方无需共享数据资源,即数据不出本地的情况下,进行数据联合训练,建立共享的机器学习模型。
联邦学习的公共价值
毫无疑问,如今我们正经历互联网第四次信息革命,坐棚海量的信息与数据。这些数据如果能够用 AL 的方式进行解读,将会为人类日常生活带来颠覆性变革。联邦学习作为未来 Al 发展的底层技术,它依靠安全可信的数据保护措施下连接数据孤岛的模式,将不断推动全球 Al 技术的创新与飞跃。
随着联邦学习在更大范围和更多行业场景的渗透及应用,它在更高层面上对各类人群、组织、行业和社会都将产生巨大影响,联邦学习的公共价值主要体现在以下几个方面∶
联邦学习的商业价值
联邦学习技术是一种"合作共赢"的模式,对商业利益而言极具价值。在这样一个联邦机制下,各个参与者的身份和地位相同,而联邦系统帮助大家建立了"共同富裕"的策略。这就是为什么这个体系叫做"联邦学习"。从商业角度联邦学习的主要价值有:
为一种全新的技术,联邦学习在借鉴一些成熟技术的同时也具备了一定的独创性。下面我们就从多个角度来阐释联邦学习和其他相关概念之间的关系。
联邦学习与分布式机器学习的区别
横向联邦学习中多方联合训练的方式与分布式机器学习(Distributed Machine Learning)有部分相似的地方。分布式机器学习涵盖了多个方面,包括把机器学习中的训练数据分布式存储、计算任务分布式运行、模型结果分布式发布等,参数服务器(Parameter Server)是分布式机器学习中一个典型的例子。
参数服务器作为加速机器学习模型训练过程的一种工具,它将数据存储在分布式的工作节点上,通过一个中心式的调度节点调配数据分布和分配计算资源,以便更高效的获得最终的训练模型。
而对于联邦学习而言,首先在于横向联邦学习中的作节占代表的是模型训练的数据掘有方,其对本地的数据具有完全的自治村限,可以白于去定何时加入联判学习进行建模,相对地在参数服务器中,中心节点始终占据着主导地位,因此联邦学习面对的是一个更复杂的学习环境;其次,联邦学习则强调模型训练过程中对数据拥有方的数据隐私保护,是一种应对数据隐私保护的有效措施,能够更好地应对未来愈加严格的数据隐私和数据安全监管环境。
联邦学习与联邦数据库的关系
联邦数据库系统是将多个不同的单元数据库进行集成,并对集成后的整体进行管理的系统。它的提出是为了实现对多个独立的数据库进行相互操作。联邦数据库系统对单元数据库往往采用分布式存储的方式,并且在实际中各个单元数据库中的数据是异构的,因此,它和联邦学习在数据的类型与存储方式上有很多相化以处。
但是,嵌判数据库系统在各个单元数据百的程中不步什何隐私保书利制,所有单元数据库对管理系统都是完全可见的。此外,联邦数据库系统的工作重心在包括插入、删除、查找、合并等各种数据库基本操作上面,而联邦学习的目的是在保护数据隐私的前提下对各个数据建立一个联合模型,使数据中蕴含的各种模式与规律更好地为我们服务。
联邦学习与区块链的关系
区块链是一个基于密码学安全的分布式账本,其方便验证,不可篡改。区块链 2.0 是一个去中心化的应用,通过使用开源的代码及分布式的存储和运行,保证极高的透明度和安全性,使数据不会被篡改。区块链的典型应用包括比特币(BTC)、以太坊(ETH)等。区块链与联邦学习都是一种去中心化的网络,区块链是一种完全P2P(peer to peer)的网络结构,在联邦学习中,第三方会承担汇聚模型、管理等功能。联邦学习与区块链中,均涉及到密码学、加密算法等基础技术。
根据技术的不同,区块链技术使用的加密算法包括哈希算法,非对称加密等;联邦学习中使用同态加密等。从数据角度上看,区块链上通过加密的方式在各个节点上记录了完整的数据,而联邦学习中,各方的数据均仅保留在本地。从奖励机制上看,区块链中,不同节点之间通过竞争记账来获得奖励;在联邦学习中,多个参与方通过共同学习,提高模型训练结果,依据每一方的贡献来分配奖励。
联邦学习与多方安全计算的关系
在联邦学习中,用户的隐私与安全是重中之重。为了保护用户隐私,防止联邦学习应用被恶意方攻击,多方安全计算技术可以在联邦学习中被应用,成为联邦学习技术框架中的一部分。学术界已经展开利用多方安全计算来增强联邦学习的安全性的研究。联邦学习可以通过差分隐私,多方安全计算,或它们的结合等技术来提供更强的安全保障。联邦学习中,可以利用多方安全计算以安全的方式计算来自用户设备的模型参数更新的总和。
更多内容请参看“联邦学习技术白皮书”,详细了解联邦学习定义及价值分析,联邦学习分类、联邦学习框架和联邦学习应用实例。
下载链接:
联邦学习技术白皮书2.0
本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。
免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。
电子书<服务器基础知识全解(终极版)>更新完毕,知识点深度讲解,提供182页完整版下载。
获取方式:点击“阅读原文”即可查看PPT可编辑版本和PDF阅读版本详情。
温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。