隐私计算,是一把打开AI 数据流通之门的新钥匙吗?
AI应用正陷入数据割裂的发展瓶颈。
编辑 | 伍文靓
不久之前,奇绩创坛创始人&CEO陆奇博士在一个问答栏目中被问到当下对AI的看法,他表示,“我对于AI的热情和关注主要来自于它可以给我们社会带来的前景。”在陆奇看来,AI的核心就是一种“获取知识,并运用知识来达成目标的通用能力”。而这是人类至今为止发明的用途最广、功能最强的通用能力。因为知识就是力量,是一种可以运用到我们想做的任何事物上的力量。
回看过去几年,我国AI在数据驱动下走出实验室,落地到金融、安防等多个领域,业内甚至流传“得数据者,得人工智能”的说法。2020年,国务院将数据列为继土地、劳动力、资本、技术之后的第五种要素,以鼓励数据的流通和价值体现。但出乎意料的是,短期内AI公司获取数据的渠道反而变得更少。一方面,数据成为生产要素后,个人及政府对数据的价值认识和保护意识有所提升,企业会更有选择地开放分享数据的类型和方式;另一方面,数据作为驱动企业发展的因素之一,在法律限制及自身利益的考量下,受到各企业严格管控。
AI公司的进一步发展需要更多数据,数据却无法如过去般顺畅流通,AI应用正陷入数据割裂的发展瓶颈。
对于如何在AI发展与隐私保护之间寻找平衡,清华大学计算机系教授张钹给出两个思路:一方面是隐私如何不被误用和滥用。第二个方面是如何利用技术的手段来保护个人隐私或者团体的隐私,包括数据的安全等等。
前者属于人工智能的治理问题,后者则是技术问题。
与此同时,一群人发现,有着“数据可用不可见”特点的隐私安全计算或许能帮助AI公司走出数据困境,打开数据流通之门。
1
什么是隐私安全计算
隐私安全计算,是在数据处理分析计算过程中,保证数据提供方不对外泄露数据,无法被恶意攻击或者其它非授权者获取数据的技术集合,可实现数据的安全流通与利用。
一个经典问题:两个百万富翁在街头相遇,他们都想知道彼此谁最富有,但又不想向对方透底,在没有第三方的帮助下,怎样才能知道谁最有钱?
这是2000年图灵奖得主姚期智1982年提出的“百万富翁”问题。姚先生提出的这个问题和他提出的解决方案,成为密码安全领域的一个大方向,推动了隐私安全计算技术的发展应用。
近两年,隐私安全计算正成为投资人看好的新行业。据前瞻经济学人统计,2020年我国隐私安全计算行业新成立企业数量为71家,同比增长33.96%。
2021年5月至今的12个月中,该赛道的8家公司的8起融资累计超10亿元,平均单轮融资金额过亿元。
值得注意的是,大多数公司的融资事件发生在2020至2021年,这也反映着越来越多投资人发现了隐私安全计算的价值。
隐私安全计算的快速发展,一方面离不开算法的进步及计算机性能的大幅度提升,另一方面也与政策相关。
过去十几年间隐私计算的算法得到了长足的进步,包括差分隐私、联邦学习、同态加密和零知识证明等领域都获得了突破性的进展。而隐私计算技术对算力与通讯带宽的需求也由于计算机系统和硬件的发展获得了很大的改善,隐私安全计算的技术终于能够开始解决实际任务,而不仅仅是计算机领域的纯理论问题。
政策方面,随着《网络安全法》《数据安全法》《个人信息保护法》三法相继生效,倒逼企业在数据采集、处理、使用、流通全环节重视及增强数据保护,隐私安全计算行业因此得利。
国务院今年一月印发的《“十四五”数字经济发展规划》更明确提出:“鼓励重点行业创新数据开发利用模式,在确保数据安全、保障用户隐私的前提下,调动行业协会、科研院所、企业等多方参与数据价值开发。”
这一文件的印发,或将进一步加速隐私安全计算技术的发展与行业应用。
过去几年,隐私安全计算从医疗行业不断延伸应用至金融、政务等不同领域,整个行业也越发热闹。
沸点资本副总裁马兰从投资人的角度,向雷峰网分享了近几年她对隐私安全计算应用的观察。
马兰注意到,2018年时很多金融机构将合规放在第一位,所以当时很多以监管为切入口的企业成长。政府2019年正式提出将数据作为生产要素后,数据安全被提升到与合规同等重要的位置。
不过人们发现,数据既做资产又做交易存在很大的数据安全问题,一批人此时将隐私安全计算引入以帮助解决这一问题。
得益于较大市场需求的出现,2020年隐私安全计算行业的原有企业发力,同时出现了一些新的创业公司,资本也相继跟进。因此2020年至2021年,隐私安全计算创业者接连找到新的落地场景,甚至产生一定收入。
在马兰看来,尽管隐私安全计算行业处于动态变化之中,但整体向着积极、更安全的状态发展。
2
AI与隐私安全计算的碰撞
AAAI国际先进人工智能协会常务理事杨强曾向雷峰网表示,从2019年开始,他就明显感受到人工智能难以落地、应用模式没有普适性、AI产品通用性不够等问题出现得更加频繁。
近年来全球多国将数据列为核心资产,数据因无法共享而形成一个个数据孤岛,进一步阻碍AI落地。他认为,各行各业都存在数据壁垒,只有突破壁垒,增加数据的流通性,才能让AI生态更好地发展。
在法规政策的要求下,科技头部公司因为有着成熟的产品和庞大的用户量,可从多个渠道获取大量数据,中小型企业却没有这种条件,难以突破数据瓶颈。
隐私安全计算是突破行业数据壁垒的一种方法,隐私安全计算让数据在合作过程中得到安全保证,数据流通自然更为畅通。
目前,不少拥有大量数据的主体因为必须对数据信息严格保密,同时找不到合适的处理方式而导致数据闲置,无法发挥数据的价值。
譬如,某地方政府拥有当地居民的详细数据,为防控疫情希望建立智能传染病防控体系,但是在缺少技术的支持下,政府很难凭一己之力建立该系统。如果外部招标公司帮助,居民个人数据存在泄漏风险,政府为了避免数据泄漏风险而不使用数据,数据因此无法发挥应有的作用。
如果在双方之间引入提供隐私安全计算服务的第三方,数据不直接在二者中流通,数据拥有方在合作中仗着拥有数据而强势的情况将较少出现,数据流通也将相对更安全。
具体而言,隐私安全计算企业将提供相应平台,数据提供者将数据授权导入平台中进行模型评估并优化,完成后只向数据需求者输出数据的价值和计算结果。整个过程中,原始数据不离开隐私安全计算平台,数据只在平台内授权使用。
双方合作过程中,隐私安全计算企业出现后可避免数据泄露。不过,如何保证隐私安全计算企业不会泄露、滥用数据?
隐私安全计算企业翼方健数首席科学家张霖涛表示,目前隐私安全计算仍然是一项处于发展早期的技术,各方面还有着较大的优化空间,不过为了保护数据信息隐私,业内已有多项措施。
以翼方健数为例,在其数据平台训练优化的数据都经过加密处理,密钥由数据所有方拥有,翼方健数无法获取数据;其次,翼方健数的多方安全计算、联邦学习、可信任执行环境三大主流安全计算方式都已通过信通院认证,官方背书证明其数据安全性。
隐私安全计算的价值被看到后,包括阿里巴巴、微众银行、蚂蚁集团、平安科技等多家公司已积极布局隐私安全计算,并推动技术应用。根据中国信通院调研数据显示,2021年约有44%的隐私安全计算产品进入实施阶段,占比进一步提升;处于研发阶段的隐私安全计算产品占比相对下降,占比为19%。
在可预见的未来,隐私安全计算或将与AI深度结合,帮助AI公司更快速发展。
3
翼方健数专供AI的解题方法
如张霖涛所言,隐私安全计算技术仍有不少问题等待被解决。
首先,隐私安全计算面临生态壁垒问题。
隐私安全计算行业内公司之间的技术不互通,数据模型在一个平台输出后,无法在另一家公司平台复用,导致新的“数据孤岛”问题出现。
其次,目前数据交易的意愿和市场还不成熟,导致很多企业把隐私安全计算当成安全合规的成本项建设。只有将场景与隐私安全计算技术深度结合,业务方从隐私安全计算受利后才能把成本项变为营收项,激发业务方可持续参与的意愿。
事实上,过去不少机构努力推动全国数据交易,但由于技术手段限制,结果却不甚理想。
若结合隐私安全计算,数据交易或更为高效。
雷峰网了解到,翼方健数正在计划推出一款基于隐私安全计算的“AI淘宝”。其首席市场官刘硕介绍,该平台可将不同的AI需求方、供给方,以及数据需求方与供给方连接,使得AI产业链上有着不同能力的企业发挥各自长处,满足不同的需求。
具体而言,该平台集合国内主流AI工具,平台内的AI企业及数据参与方可调取AI能力。与其它平台的最大区别是,该平台保护数据源的所有数据、AI模型。
“翼方健数是一家0数据的数据智能公司,不拥有数据,只提供工具对数据进行管理,并允许客户在获得授权下加工和处理数据,获取数据价值。”张霖涛对雷峰网介绍。
翼方健数之所以有如此计划,与其深耕行业多年,以及对不同领域公司业务发展的长期观察相关。
翼方健数2016年成立便扎入研究隐私安全计算的开发与应用,目前其业务已从医疗拓展至政务、金融、营销、科学等领域。过往案例中,翼方健数已在不同场景利用隐私安全计算技术解决实际问题:
利用隐私安全计算技术,翼方健数帮助有着“药物-细胞-基因”数据库的企业,如格物致和,与AI制药公司、生物医药研发技术公司,如燧坤智能达成供需合作,帮助数据所有者将数据的使用权和所有权进行分离,放心地对外赋权使用;针对招投标场景,翼方健数构建了一个AI验证平台,既保护了招标方的数据,也保护了投标方AI企业的模型。不仅是应用在AI需求方的招标选择上,AI验证平台还可以应用在技术赛事上,对AI实现真正的“技术评分”。
受限于实施交付复杂、计算量极大、客户接受程度低、需要全环节保密等问题,隐私安全计算技术目前仅仅是刚刚开始被应用于越来越多的领域,随着时间的推移和技术的进步,还许多场景有着隐私安全计算大展拳脚的机会。
以汽车行业为例,近几年兴起的智能网联汽车行业中,已出现不少自动驾驶公司为车企提供辅助驾驶能力,比如百度Apollo牵手比亚迪、Momenta联合上汽等。汽车行业迎来新的面貌同时,有人质疑自动驾驶公司为车企提供服务,可能通过量产汽车收集大量用户、道路数据,从而存在数据隐私泄露的风险。如果在双方合作过程中引入隐私安全计算,或将避免自动驾驶公司获得用户敏感信息。
4
总结
有着“计算机安全教母”之称的宋晓冬教授曾公开表示,未来所有的计算都将是隐私计算。
随着各行业数字化转型升级的加快,数据对于行业发展的驱动作用也将越来越明显,同时数据流动也将受到更多限制。
目前,多家公司已提出不同技术路线,提升隐私安全计算安全合规程度。随着隐私计算逐步深入应用至更多场景,补足当前缺陷,隐私安全计算或将迎来更光明的未来。
END
爱奇艺往事:多少过错,多少错过
离开豆瓣的日子
RISC-V 中国创世记