浅议个人数据开发利用新范式-技术圈

大数据文摘授权转载自数据派THU

作者：张家林

在所有数据资产类型中，个人数据的开发利用潜在价值巨大。个人数据在过去几十年里，已经得到前所未有的开发和利用，推动了经济增长和社会发展。但与此同时，也逐渐引发越来越凸出的经济、社会和伦理道德问题。

App应用服务包罗万象，几乎涵盖了个人生活、工作和学习等方方面面。个人在由这些应用服务营造出来的数字空间中活动，自然而又轻松的产生了大量的个人数据，这些来自不同数据出生地（DBP）[i]、海量的、异构的数据，构成了个人数据空间（PersonalData Space）。

个人数据开发利用的旧范式是App应用服务商向个人提供服务，个人向App应用服务商提供或生产个人数据。App应用服务商通过处理、交易个人数据，从而获得直接或间接收益。

在过去几十年的互联网发展过程中，这种范式无疑处于主导地位。范式转换的核心驱动因素是对数据权利的认知提升，以及公众和政府对隐私保护[ii]和安全的关切[iii]。旧范式下，个人对其个人数据空间的治理、管控和感知等各个方面，都非常欠缺。

自2016年欧盟推出GDPR以来，各个国家都在加快围绕个人数据保护的立法议程。随着我国《个人信息保护法》、《数据安全法》等重要法律法规的出台，标志着个人数据的开发利用从旧的范式转换到一个新范式。

新范式正处于形成和发展中，尚未形成全球共识。欧盟提出了“以人为本的个人数据开发利用”的mydata范式[iv]。美国尚未出台类似GDPR的专门的个人数据保护的法律，目前大多数州都是基于消费者保护建立的法律体系，只有个别州出台了法律[v]。概括来讲，美国倡导的是“基于规则、协议和市场”的open data范式。其他国家基于各自的法律、文化以及数字基础设施的条件，也都在积极探索适合本国个人数据开发利用的新范式。

新范式所遵循的一个核心原则是：对个人数据的开发利用，需要始终兼顾开放、隐私和安全，并在这三者之间形成的“不可能三角”中，针对不同的场景（context）寻求最优解决方案。

本文首先对新范式演化做简要的回顾，然后从微观的视角，通过建立一个个人数据空间的分析模型，来初步研究新范式下的个人数据开发利用前景和展望。

演化中的个人数据开发利用新范式

过去很长一段时期里，个人数据空间中的原始数据分布在众多的App应用服务商手中。大多数情况下，个人对这些原始数据并没有控制权，App应用服务商是数据控制者。数据的流通完全由数据控制者决定。实证研究指出，不合理的、不审慎的个人数据开放是导致隐私泄露和安全担忧的根源[vi]。

旧范式的缺陷不仅是只考虑开发利用，忽略和忽视个人隐私保护，而且价值分配也不合理。旧范式下，个人数据的开发利用价值绝大部分都分配给了数据控制者和使用者，个人所得寥寥。而且，在旧范式下，网络效应形成的数据垄断，对个人、经济和社会的负面影响也日益显著。

因此，个人数据的开发利用新范式，需要在开放、安全和隐私这个不可能三角框架下寻求答案。

“mydata”[vii]提出了“以人为本的个人数据使用新范式”。这个新范式认为“个人应被賦予足够的权利和能力，以管理个人的私人生活。并尽可能的让个人拥有确实可行的工具、方法，来理解和有效地控制谁可以访问其个人数据，以及这些私有数据的如何使用和分享的方式。”

“mydata“将隐私、数据安全和数据最小化原则，作为个人数据开发利用的实践标准。强调了让个人理解隐私政策，鼓励应用服务商采取激励机制，激活个人数据价值的同时，“mydata”倡导数据开发利用的透明度、可解释性。即，只有个人能够明确的理解个人数据为什么、怎么、以及多久被使用，才有能力来授予、拒绝或撤销数据的开发利用。

“mydata”是基于「信任三角」[viii]模型构建的范式。示意图如下：

个人数据运营商（Operator）让个人可以安全地访问、管理和使用自己的个人数据，以及管控从数据源（DataSource）和数据使用服务（Data Using Service）之间的数据流动。个人可以担任自己个人数据运营商。个人数据运营商本身不能使用这些数据，但能让本系统中不同角色相互连接和安全的共享数据。

“mydata”最早是一项“个人信息管理”的倡议，在GDPR之后，逐渐演化为一种新范式。自2017年正式运营以来，取得非常不错的成就。最新的案例是韩国政府就采用了“mydata”范式[ix]，给28家金融机构发放个人数据运营商牌照。

美国尚未出台专门的个人数据保护联邦法律[x]。但消费者保护方面的一系列法律体系比较完善，其中有涉及隐私、个人信息权保护的条款。有三个州最近出台了专门的个人数据隐私保护方面的法律。

概括而言，美国的个人数据开发利用是“open data”范式。强调基于规则、协议和市场的开放、自由流动，鼓励个人数据市场。基于“open data”范式，美国已经形成了每年大约数千亿美元交易额的数据市场[xi]。市场结构主要是基于B-B模式的，即数据的流通主要是由数据控制者决定；数据安全和隐私保护等，是基于数据控制者自身能力、技术水平和规范决定。例如，Amzon建立了datamarketplace制度和规范。Apple定义了整个生态的隐私和安全标准等。

限于篇幅，本文不对这两种范式的优缺点进行详细的比较，下面的示意图形象了展示了它们之间显著的特征差异。

整体而言，无论是mydata，还是opendata，其所主张的核心理念是，在个人隐私、安全充分保障的前提下，最大限度的开发利用个人数据。其背后的核心逻辑是一致的，即个人数据蕴含巨大的经济、社会价值。

但在具体如何实现个人隐私保护、以及程度、范围等方面存在不同的侧重点。其中几个关键原则，例如“告知-同意”，“最小化”等原则存在较大差异。

个人数据空间及其结构

“个人数据空间”（peronsal dataspace）是GDPR之后逐渐发展起来的概念。主要目的是确定个人数据的范围和边界。由于尚未形成关于个人数据保护的国际公约，因此，各个国家的对个人数据空间的范围和边界的界定存在一定的差异。

在中国，按照《个人信息保护法》和《网络数据安全法》，拟定的数据分类分级的规范[xii]，将个人数据分类为16个一级类别，22个二级类别。安全标准分级从低到高为1至5级。其中，明确规定了个人敏感信息的安全标准分级不低于4级。

于此同时，《个人信息安全规范 - GB/T 35273》对个人数据从收集、保存、共享、使用、转让、委托处理等各个环节提出了相应要求。

依据上述法律法规以及相关规范，构建中国的个人数据空间的一个「结构模型」如下：这个结构模型由一个身份ID（Identity）、一个包含五个层级的数据核（PDC：Personal DataCore）和一个数据表示层（PDP: Personal DataPresentations）构成。示意图如下：

身份ID标识这个数据空间的主体身份。

数据核中包括三大类个人数据：{个人非敏感信息，个人敏感信息，个人秘密}，以及按照分级标准设置的4个分级。其中个人非敏感信息、个人敏感信息按照有关法律和规范定义；个人秘密则指不可访问、不能利用以及其他限制任何外部开发利用的个人信息的统称。

数据核包括了个人数据的原始数据，以及描述这些原始数据的metadata。一般的，这些metadata描述了对应的原始数据在哪“出生”，由谁出生的等信息。这些metadata的核心目标是确保数据核中的原始数据是可追溯、可验证的可信数据（TrustedData）。

考虑个性化需求、隐私保护、以及权利设置等差异化因素，当外部应用需要访问数据核的数据时，个人可以针对不同的应用，设置不同的策略。

例如，Alice对其消费数据设置不同的策略：如对提供消费信贷的银行，她可以设置完全使用；对电商或广告商，她则设置为特定期限、特种商品的消费数据可以使用。

这些策略可以看作是一个映射函数（表示类），将数据核的数据映射为某种形态后给外部使用。由于存在很多的策略，所有这些策略构成的集合，就用表示层来描述。外部不能直接访问数据核的数据，而都需要通过表示层来获得数据核中数据的某种形式的一种表示。

由此，对任意一个人（A）的数据空间

，

的数据核包括三个大类，4个等级的数据

，其中p表示类别，q表示等级；以及在表示层中数量不等的表示类

。外部应用使用的个人数据资产

是数据核元素的一种表示，即

。

例如，对于非敏感信息，则可以认为

；而对于需要隐私计算后，才能使用的数据，则

，这里

为某种隐私算法。

一个示例如下：

示意图表示App1使用的是任何类别，等级为1的数据；App2则联合使用任何类别，但等级分别为1和4级的数据；Appi使用任何类别，等级为3的数据，其中，由于安全等级设置，App2和Appi都无法直接使用数据，而是采用了隐私计算等算法，间接的使用数据。

例如，Alice的交易对手Bob，想知道Alice的账户是否有足够的余额支付他们之间的交易。但Alice处于隐私保护目的，并不想给Bob看她的银行存款余额。那么Alice就可以选择一个隐私计算的算法来表示她的银行存款余额。这个表示算法根据Bob设定的金额，表示出Alice的余额是否大于或小于这个金额。

由于个人数据蕴含丰富的信息，高级的AI算法能够通过关联不同类别的数据，推理或预测个人的一些深度隐私或秘密。

例如，通过对Alice的银行余额数据和交易的长时间序列，关联其它的一些数据，就不仅能推测Alice目前有“多少钱”，还可以推测Alice“怎么挣钱”，以及未来是否还能“挣到钱”的隐私和秘密。

可能大多数人很难想象，当你戴了一个眼球追踪装置的时候，追踪装置采集到眼球的数据都是一些诸如眼球运动参数、机能的一些“常规”、完全可以开放的数据。但采用高级的算法，通过分析这些眼球运动的数据，也能推断出非常多的关于个人的敏感信息[xiii]。

上图实例中，左边的数据是眼球跟踪装置直接采集的眼球运动的常规数据。右边的年龄、性别、健康、生物信息等个人敏感信息，都是通过AI算法预测、推断出来的。如果跟踪的时间足够长，这些推断的准确性就非常高。

因此，处于保护隐私和安全的考虑，有必要在表示层，对这类算法进行感知、限制，采取的方式就是，限制对某些数据的联合建模或关联分析，以阻止特定算法洞察个人隐私和秘密的行为。

例如，某个App想使用

数据，经过审核

算法安全，则可以表示。但如果App想联合使用

数据，则表示层识别到这种情况，设定了特别的阻止表示类

，限制外部任何应用联合使用这两个数据。

更为复杂的情形是，App应用将个人数据空间中的数据关联到外部数据，从而进行潜在的挖掘和洞察，在此情况下，表示层会事前要求App提出使用数据的目的以及说明。并可以采取必要的措施，进行事后审核和检验。

表示层具体实现的方案有很多种。一种可行的方案是，表示层用区块链来构建，如此，策略、权限设置等就都可以用智能合约来表达。使用一个策略，就是调用一个合约，这样可以大大提高互操作性和标准化。与此同时，也能很好的记录、追踪和存证。

根据上述模型，一个App应用访问Alice个人数据空间的过程就可以简单的描述如下：

【初始化过程[xiv]】我们假设Alice已经从不同的数据出生地，运用数据复制权利/可携带权，归集自己的个人数据、并存储在分布式的PDS（个人数据存储）上。除此之外，Alice也完成了对数据空间中的原始数据的访问/使用权限、策略进行设置，并用智能合约的方式表达出来。如，哪些数据可以使用，哪些绝对不行；哪些可以采用隐私计算使用，哪些可以直接用原始数据使用等等。策略设置主要是考虑隐私保护以及限制不良洞察算法滥用数据关联等。

1. 当一个App应用提交Alice要使用她的类别为3、4、5类，安全等级为2、4的所有数据，即

的请求。

2. Alice的个人数据空间的代理人（agent）收到这个请求后，首先根据权限、策略设置表，进行审计和评估。

3. 审计和评估后，代理人得出结果：

3.1 当3、5两类、等级为4的数据联合使用，存在隐私风险；因此，拒绝APP对

使用；

3.2 第4类、等级为4的数据，必须采用隐私计算保护；同时如果算法不合格，则拒绝使用。

4. APP提交了处理

数据的算法g和f，代理人对算法进行审计或验证后，通过了。

5. 最终，APP得到的数据和可以使用的算法是

。

Alice是电商平台JD、TB的用户。JD、TB和Alice根据《个人信息保护法》等法律签署了新的服务协议。

Alice向JD、TB发出个人数据查询请求。JD、TB响应请求，告知Alice它们各自采集、存储和使用了她的哪些个人数据，以及如何使用这些数据的说明。

Alice准备向一家银行Bank G申请消费贷款。Bank G告知Alice，只要她能提高在JD,TB的过去3年的消费数据，就可以得到受理。

Alice向JD、TB发出个人消费数据的复制请求（数据携带权）。JD、TB很快，就将Alice要求的过去三年的个人消费数据发送给Alice。

Alice是购买和租用了一套自治的个人数据管理系统（PDMS）。这个系统为Alice提高管理自己数据空间的工具，并提供一些基础的服务（如BaaS区块链、分布式存储、委托代理等）。

Alice的PDMS接收到从JD、TB上传来的消费数据，会将其归类和加密后存储。PDMS的控制界面会提供很多选项，让Alice决定访问这些数据的权限，以及一些特定的策略。例如，Alice想把采购一些个人私人用品的消费数据（如产品名称、消费金额等）做隐私保护。

PDMS将上述数据完成设置后。Alice就授权BankG来使用。

Bank G无法直接访问Alice的数据核，需要通过表示层的区块链合约接口ABI来访问数据。而这些合约确保按照Alice确定的权限和策略对外提供数据。

至此，BankG就完成了请求获取Alice数据的过程。

BankG获取数据，如何处理数据是基于其与Alice基于消费信贷这一场景的需求。如果超出这个范畴，那里Alice就可以拒绝。

事实上，Alice很难判断一个算法到底是不是遵守“场景一致”原则的，因此，往往需要第三方帮助其进行鉴别。而Bank G可以采取公示或审计的方法，提高其处理个人数据的透明度。

“场景一致”原则[xv]，是个人数据开发利用新范式中引入一个原则。这个原则有助于判断某个应用算法是否“越界”，是否“必要”，以及是否存在隐私窥探和非法洞察。

综上，可以看到，通过合理的构建个人数据空间及其结构，采取适当的技术堆栈，能够有效的为个人提高数据权利行权和维权的工具和服务。

结论

无论是GDPR、还是我国的《个人信息保护法》都赋予个人对数据诸多权利，因此，每个人都成为个人数据汇集/归集和管控的枢纽。

并不是所有个人都有能力识别“坏”的算法、判断是否可以给予某个应用App权限。管理好自己的个人数据，绝对不是一件轻松的事情。因此，需要创造和开发新的工具和服务，帮助个人不仅有能力行使权利、维护自己的权利，而且也能最大化个人数据的价值。

由于法律赋予的权利，每个人都可以自由的、自治的管理个人数据该如何使用，给谁使用，为什么使用。每个人都能够安全地、以自己喜欢的方式来管理自己的个人数据空间。这需要个人不仅拥有适当的工具，而且也需要培训、知识以及必要的支持，来把个人数据转换成对自己、社区和社会有益的价值。

要实现上述目标，数据的可携带性（dataportability）是基石。个人数据处理者的透明度、可审计性，以及不同数据出生地的控制者之间的互操作性则是必须的保障。