隐私计算的技术流派与标准

共 3616字,需浏览 8分钟

 ·

2021-11-07 12:27


| 陈丽姗、刘翌 编审 | 于百程  排版 | 王纪珑琰

编者按:近日,零壹财经推出国内首个系统研究隐私计算在金融领域应用的报告《开启新纪元:隐私计算在金融领域应用发展报告(2021)》,从隐私计算落地最为密集的金融业开始,展示隐私计算发展中真实而鲜活的产业生态,让产业实践者们被看见、被发现。本报告研究机构为零壹财经·零壹智库,联合发布单位为中国科技体制改革研究会数字经济发展研究小组、深圳市信用促进会、横琴数链数字金融研究院,同时得到了同盾科技、星云clustar、瑞莱智慧、金智塔科技和天冕科技的研究支持。


来源 | 零壹财经

以下为隐私计算的技术路径部分内容:


(一)隐私计算的定义


隐私计算是“隐私保护计算”(privacy-preservingcomputation)的中文简称,根据“大数据联合国全球工作组”(Bigdata UN GlobalWorking Group)的定义,这是一类技术方案,在处理和分析计算数据的过程中能保持数据不透明、不泄露、无法被计算方以及其他非授权方获取。


大数据联合国全球工作组成立于2014年,由31个成员国和16个国际组织组成。早在2018年,工作组就致力于促进各国多个统计局相互进行敏感大数据协作,是最早研究隐私计算的国际组织之一。2019年,该工作组出台了《联合国隐私保护计算技术手册》,以方便各国统计局以安全适当方式访问新的 (敏感)大数据源。


需要注意的是,隐私计算不是指某一个具体的技术,而是一个范畴和集合。可信执行环境、多方安全计算、联邦学习等都属于隐私计算技术。


(二)隐私计算的技术流派


隐私计算技术是在保护数据本身不对外泄露的前提下,多个参与方通过协同对自有数据处理、联合建模运算、分析输出结果、挖掘数据价值的一类信息技术。    作为跨学科技术,隐私计算涉及密码学、机器学习、神经网络、信息科学,同时可与人工智能、云计算、区块链分布式网络等前沿技术融合应用,为数据保护和价值融合提供技术可行性。


从技术实现原理来看,隐私计算有两种分类方式。


一种是将隐私计算技术分为两个方向——可信硬件和密码学。可信硬件指可信执行环境(TEE),主要依靠硬件来解决隐私保护问题;密码学以多方计算、联邦学习为代表,主要通过数学方法来解决隐私保护问题。


另一种是将隐私计算分为三个方向。由于联邦学习是密码学、分布式计算、机器学习三个学科交叉的技术,目前更常见的是三分类法,即分为密码学、可信硬件和联邦学习三个流派。以密码学为核心技术的隐私计算以多方安全计算、同态加密为代表;可信硬件以可信执行环境为主导;“联邦学习类”泛指国内外衍生出的联邦计算、共享学习、知识联邦等一系列名词,是指多个参与方联合数据源、共同建模、提升模型性能和输出结果准确性的分布式机器学习。


1、多方安全计算


多方安全计算(Secure  Muti-Party  Computation,MPC)理论,是1982年时任加州大学伯克利分校计算机系教授姚期智为解决一组互不信任的参与方在保护隐私信息以及没有可信第三方的前提下的协同计算问题而提出的理论框架。后经Oded Goldreich、Shafi Goldwasser等学者的众多原始创新工作,多方安全计算逐渐发展为现代密码学的一个重要分支。多方安全计算能够同时确保输入的隐私性和计算的正确性,在没有可信第三方的前提下通过数学理论保证参与计算的各方输入信息不暴露,而且同时能够获得准确的运算结果。


多方安全计算通常借助多种底层密码框架完成,主要包括不经意传输(Oblivious Transfer,OT),混淆电路(Garbled Circuit,GC),秘密共享(Secret Sharing,SS)和同态加密(Homomorphic Encryption HE)等。


不经意传输是指数据传输方发出多条信息,而接收方只获取其中一个。由于传输方不确定最终到达的信息是哪一条,接收方也无法得知未获取的其他信息,从而双方的数据都处于隐私状态。


混淆电路是最接近“百万富翁”解决方式的思路。多方参与者利用计算机编程将输入的计算任务转化为布尔值,对输入的具体数值加密,因此多方在互相不掌握对方私人信息时,可共同完成计算。


秘密共享是对加密信息的随机切分过程,将信息的片段分散至多个参与方保管。因此除非超过一定数量的多方协同合作,否则无法还原完整的数据并进行解密。


由于多方安全计算通常使用前三种框架便能实现,同态加密也被部分人士认作独立于安全多方计算而基于密码学的技术。同态加密指能实现在密文上进行计算后对输出进行解密,得到的结果和直接对明文计算的结果一致。该概念最早在1978年由 Ron Rivest、 Leonard Adleman和 Michael L. Dertouzo提出。按照支持的功能划分,目前大致可以分为全同态加密和部分同态加密。全同态加密可以在加密态密文的状态下对数据进行各种运算,而部分同态加密只能对密文进行无限次同态加法或无限次同态乘法操作。


多方安全计算技术通用性高、准确性高,行业内也肯定了算法的理论价值和应用前景。即使密码和开发的难度导致其性能中等,密码学领域也有一半以上的学者研究多方安全计算的相关话题。作为发展历史最长、相对更成熟的技术,多方安全计算技术成为了各科技大厂和新秀的技术路径之一。


表:进入隐私计算领域的创业公司情况


数据来源:零壹智库


2、可信执行环境(TEE)


可信执行环境作为易开发、高性能的隐私计算技术,与硬件提供方存在强依赖关系。其实践路径表现为:在CPU内划分出独立于操作系统的、可信的、隔离的机密空间。由于数据处理在可信空间内进行,数据的隐私性依赖可信硬件的实现。


3、联邦学习


联邦学习(Federated Learning)从技术层面上涉及隐私保护、机器学习和分布式领域,能有效地满足数据在不出本地的情况下,实现共同建模,提升模型的效果。


根据特征空间和样本ID空间的不同,联邦学习分为横向联邦、纵向联邦和联邦迁移学习。


横向联邦学习适用于特征重合较多、样本重合较少的联合计算场景。但通过构建联邦生态,参与者可以聚合更多的数据样本,从而解决单边建模数据不足的情况。例如,某银行在不同区域设立分行,由于商业模式相同,数据拥有重合度较高的特征,但各行服务不同地区的客户,样本重合较少,这种情况就可以应用横向联邦学习。


纵向联邦学习适用于样本重合较多、特征重合较少的联合计算场景。通过建立联邦生态,参与者可以丰富样本特征,实现更精准的样本描述。例如,服务同一群体的银行与电商平台就可以采用纵向联邦学习。


联邦迁移学习是对横向联邦学习和纵向联邦学习的补充,适用于特征、样本重合均少的场景。例如,不同地区的银行和商场之间,用户空间交叉较少,并且特征空间基本无重叠。


联邦学习在国内隐私计算赛道得到了广泛的应用,如微众银行FATE开源平台,平安科技“蜂巢”、百度开源框架PaddleFL、字节跳动Fedlearner平台。此外,一些隐私计算创业公司也在通过联邦学习技术的探索与应用,积极入局,如星云Clustar。


(三)隐私计算的技术标准


按照标准内容和参与机构,国内的隐私计算标准大致能够分成三个阶段。从理论层面、测评层面到互联互通层面,三个阶段下隐私计算标准的实用性和覆盖范围逐渐提高。隐私计算标准的参与和发布机构由企业和行业机构也逐渐转向国家和国际层面的机构。值得注意的是,隐私计算相关的技术标准仍在制定中。


图:隐私计算产业生态


制图:郑乔丹、陈丽姗、张艳茹


1、第一阶段


第一个阶段标准在定义和框架上给出了解释,这个阶段更加关注理论,主要满足科研性实验性课题。此外,参与制定标准的机构主要为企业和行业机构。


2、第二阶段


第二阶段的标准在性能和工程化安全方面给出了测评标准,让隐私计算从理论框架层面过渡到支持测评的实践方面,从企业实践方面提升了隐私计算标准的可用性。其中,“可信隐私计算”产品测评体系作为对隐私计算产品的功能和性能进行评测的标准,受到广泛的认可。


3、第三阶段


第三阶段的标准强调互联互通,主要针对隐私保护措施带来的数据孤岛问题。这个阶段还伴随着国际和国家层面机构参与到隐私计算的标准制定。其中,《隐私保护机器学习技术框架》是首次通过隐私计算技术领域的国际标准;《隐私保护的数据互联互通协议规范》是隐私计算互联互通的首个国家标准。

 


推荐阅读


联系我们

浏览 71
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报