姚期智:数据、算法、算力为何是数字经济核心技术?
摘要
作者:姚期智,图灵奖得主
对于数字经济,习近平总书记强调:“要站在统筹中华民族伟大复兴战略全局和世界百年未有之大变局的高度,统筹国内国际两个大局、发展安全两件大事,充分发挥海量数据和丰富应用场景优势,促进数字技术与实体经济深度融合,赋能传统产业转型升级,催生新产业新业态新模式,不断做强做优做大我国数字经济。” “要加强关键核心技术攻关,牵住自主创新这个“牛鼻子”,发挥我国社会主义制度优势、新型举国体制优势、超大规模市场优势,提高数字技术基础研发能力,打好关键核心技术攻坚战,尽快实现高水平自立自强,把发展数字经济自主权牢牢掌握在自己手中。”
正如总书记所说,数字经济的建设需要核心技术的支撑,清华大学交叉信息学院与交叉信息核心院在这些前沿核心技术方面持续进行着理论研究与实践探索,也在今年与央企数字化研究院,以及以华润集团为代表的央企建立了紧密的合作。我也很高兴担任央企数字化研究院的首席科学家,与诸位同仁共同推动央企数字化转型与我国数字经济的建设工作。
数字经济的核心技术涉及数据、算法与算力三个方面。数据正在成为经济关键生产要素,我们需要研究推进数据确权和分类分级管理,畅通数据交易流动,实现数据要素市场化配置,合理分配数据要素收益。首先,以隐私计算、区块链技术与零知识证明为代表的交叉信息技术将扮演基础设施的角色。同时,我院金融科技团队探索实践的数据定价算法,在数据流通、多方协作的过程中,可以解决数据要素的经济收益共享与分配的问题,在此次峰会上也会发布与华润集团的部分实践成果,并将与央企数字化研究院一起搭建全球首个数据要素定价的计算平台,并逐步推出公共服务。在算力方面,我们将基于智能芯片的基础研究与实践落地,在央企数字化研究院平台上实现转化,为数字经济的发展提供算力基础。
接下来,请让我为诸位介绍一下数字经济前沿技术的最新进展,和我作为央企数字化研究院首席科学家的一些规划的思路:
数字经济的三大核心要素包含数据、模型算法、算力三个方面,每一个方面都有相应的前沿核心技术,我们可以进行一一讨论。
首先,我们讨论数据技术。
数字化转型的最大挑战之一是“数据孤岛”问题:对于不同主体,由于数据安全、数据隐私的法律法规要求不能将数据简单整合;对于同一主体,数据可以通过管理行政命令有限程度整合,但是由于部门利益、权限管理、安全管理等障碍也无法依靠简单的管理要求进行完全整合。
由中共中央、国务院发布的《关于构建更加完善的要素市场化配置体制机制的意见》 与《关于新时代加快完善社会主义市场经济体制的意见》都强调要加快培育数据要素市场,健全要素市场运行机制。那么,在个人数据隐私法与数据安全法的要求前提下,要使数据在隐私保护的环境下进行流通,就变成了必要的基础。
多方安全计算(MPC)技术使得数据要素流通成为可能,“数据可用不可见”,利用这项技术,可以打破“数据孤岛”,形成数字化转型基础。
在央企数字化转型研究院平台上,我们将规划以下方面的工作:
1. 打造“数据中台”,在数据安全、数据隐私合规,和部门职责权限管理、安全管理等现实情况的可行边界下,进行尽可能的有限整合
2. 利用隐私计算技术,“数据可用不可见”,在多企业集团内部先行形成数据流动平台
3. 在监管框架内,建设央企间合作联盟,打造行业级的隐私计算平台,形成企业间的数据要素流通市场
另一方面,数据要素市场需要监管与治理,这就需要在数据安全的前提下建设“监管工具”与“监管算法”,确保数据要素流通平台上的业务活动、生产活动在监管的框架下进行,并且可以接受监督与治理。
零知识证明的技术可以有效实现这一目标:政府部门或行业联盟可以共同利用零知识证明技术实现监管与隐私共存,验证数据要素使用的合规性、公平性等原则,保障数据隐私与企业机密。从而可以实现“党管数据,央企先行”的目标。
对于这项技术,建设路径可以采取以下方案:
在企业间的数据要素流通市场先行先试,利用零知识证明技术实现监管与隐私共存,建立“监管沙盒”平台,逐步实验成熟投入生产。
这一点可以参考金融行业的成功经验:“监管沙盒”在金融行业已经获得成功,在深圳的监管沙盒已经有了“出盒”的成功案例。
进一步的,在数据要素市场的建立过程中,我们需要数据的确权、数据计算过程的记录可供审计和监管,而高性能的区块链技术可以实现这一点,它可以保存计算输入输出,实现计算的过程管理与透明化。
央企数字化研究院也将通过以下步骤推动这项技术的应用:
1. 在企业集团内部与企业间数据要素流通平台都可以建设这项应用技术,作为数据要素流通的配套基础设施
2.在央企监管场景下也可以建设该这项应用技术,实现数据监管的要求
有了以上的数据流动的技术设施,我们就可以在上面打造数据要素的流通市场了,这些技术可以帮助我们实现数据确权和分类分级管理,畅通数据交易的流动。那么,进一的,在解决了数据安全、隐私保护和数据监管等数据流通问题之后,最重要的就是形成合理的经济分配机制,从而驱动企业内部的部门独立核算、企业间的数据共享,以形成数据要素市场,实现数据要素市场化配置,合理分配数据要素收益。
要完成这个任务,我们就需要建立数据要素的定价理论与算法,这是一项融合了信息经济学、博弈论、计算机科学的前沿交叉理论,我们在这项技术方面进行了前沿研究,并与华润集团、华润银行一道进行了实践性的探索与落地。我也感谢华润集团作为央企的代表,提供了丰富的业务场景和数据场景,我相信这一试点也会不断扩大范围,覆盖更多的场景与企业,为我国的数字经济发展提供经济动力。
在此我也简要介绍一下这项技术:
数据是用来建模的,通过数据的分析经济主体可以进行有效的决策,我们把这一过程抽象为决策模型。而经济主体,不管是机构还是个人,都希望获取最好的经济价值,这种对经济价值的目标我们可以抽象出来一个功效函数。基于经济学理论与数学的推导,我们可以建立起经济主体的功效函数与决策模型精度直接的联系。
进一步的,我们可以根据博弈论的合作博弈理论,来确立不同的数据对于决策模型的贡献度,贡献度大的数据要素更有价值。因此,通过经济主体功效函数与决策模型贡献度的耦合,我们就可以对不同数据要素起到的经济价值做合理公平的定量评估,计算得到数据要素在经济活动中产生的经济价值。
在不同的经济活动中,如何基于数据要素流通的方式赋能经济活动,并在各数据源间分配公平合理的经济价值?
- 基于市场营销的场景,可以在隐私计算的环境下,通过多源外部数据源与内部CRM数据的联合建模,生成智能营销的模型,提高营销获客的效率
- 基于供应链管理的场景,可以在隐私计算的环境下,通过多源外部数据源与内部ERP数据的联合建模,生成智能调度的模型,提高物流、金融流管理的效率
- 基于生产制造的场景,可以在隐私计算的环境下,通过多外部数据源与内部MES数据的联合建模,生成智能生产的模型,提高生产的效率
这些经济效率的提升是基于模型精度的提升,比如精度高一倍的营销模型就可以帮助机构获得多一倍的业务量,这些业务的经济价值是由于使用了多方的数据要素,并建立了更高精度的模型带来的。那么我们就可以通过多方数据合作博弈的框架,建立分配算法,按照贡献度公平合理地分配这些价值。谁的数据对模型精度以及相关联的经济价值贡献度高,谁就应该获得相应更多的经济价值。
简单的来说,这个价值可以用经济主体的功效函数与数据的模型贡献度相耦合来进行刻画。
这是一个简单的例子,我们可以用数据来预测贷款违约倾向,识别良好/不良信用的客户,利用来自不同数据提供方的银行贷款信息和申请客户贷款逾期情况信息数据进行隐私计算的联合建模。那么,如何实现对各个数据提供方所提供的数据资源进行定价呢?
如果用传统的分配方式,即按照每个参与方的数据样本数进行分配,是不能反映出来数据的实际价值的。而用模型贡献度进行度量,可以实现这一点,通过模型贡献度的计算我们可得出一些有意思的结论:
• A比E样本多,但贡献值较低
• C、D样本相同,但C的模型贡献率明显高于D。
• E比C样本多,模型贡献率略低于C。
就在上个月,刘鹤副总理专门提出了要实现数据要素的市场化配置,合理分配数据要素收益。深圳市作为先行示范区更是在全国首次提出了数据资产“入表”的条例草案,探索建立数据生产要素会计核算制度。
相应的,在公共数据层面,政府也应该匹配相应的数据财政制度,将来源于公共性数据层面的数据收益,通过支出,构建基础设施等支撑体系。我们也已经欣然的看到,北京、上海以及深圳都在积极的开展建设数据交易中心的工作。
就央企数字化研究院的数据定价工作,我们提出建设路径:
1. 在企业集团内部不同部门,不同法人主体之间可以建设数据要素流动与定价平台,推动数据共享与收益核算分配,推动数据资产计价、核算与审计
2. 在跨企业之间建立数据要素流通市场与数据定价算法平台,推动数据流通与收益分配3. 在央企建立“监管沙盒”先行先试,基于央企数字化研究院搭建全球首个数据要素定价计算平台
在这方面,我们也已经与华润集团和华润银行开始了基于产业金融场景的实践。我在此简单地提一下,我们院的林常乐老师会在明天的数字金融论坛上做更详细的实践介绍。
从路径上讲,华润集团有丰富的场景资源,可以用产融结合为抓手,形成“以产助融,以融促产”的产融协同模式。并推动产业链全面数字化,将协同模式逐步向外部生态移植。
首先在华润集团内部可以打造智能化模型,利用华润银行与产业集团的数据,在隐私计算的环境下进行联合建模,产生各类生产模型:如智能营销、智能推荐、智能信贷风险模型等。在联合建模的同时,我们可以根据数据定价算法在集团不同法人主体、不同部门之间根据数据的贡献度进行经济价值的分配、部门贡献的独立核算,这样就以市场化的力量将整个集团协同起来,用经济动力将基于数据要素的生产活动调动统一起来,形成强大的经济效率提升力。
进一步的,基于集团内的成功实践,我们可以进一步推广到集团外部,形成产业链的互联互通,成为数据要素联动的数字经济体,实现刘鹤副总理所强调的“产业链核心企业带动上下游企业协同创新,提升创新链产业链水平”。
对于模型算法方面的应用,央企数字化研究院也将引领向前。
如前所述,数字经济时代的千千万万的生产活动会催生海量的智能化模型。
近年来,人工智能技术取得了巨大的进展,大数据与人工智能的结合使得海量模型的建立成为可能。无论是在纵深的算法研究,还是横向的创新场景层面,人工智能技术都为数字经济拉开了波澜壮阔的巨幕。
人工智能模型有非常强大的优势,不需要预设的逻辑、不需要专家观点就可以实现建模,并且各类算法工具平台可以支持快速的建模。但也有其劣势,主要集中在模型的可解释性、校验方法的可靠度,模型缺陷与局限性等方面。
因此,我们认为人工智能的下一篇章在于如何进行算法模型的治理,即模型的可解释性、模型的精度与风险、算法公平性等方面。
模型治理既是技术,又是制度,成熟的数字化企业会形成完整的模型治理制度。我们央企数字化研究院的工作,在推广建设人工智能能力的同时,也要推广成熟的模型治理制度建设。
目前,包括对抗攻击、因果分析与可解释性分析的研究工作已经给这方面的工作指出了发展的方向。
在这些方面,我们认为应该进行以下的工作内容:
1. 建立模型治理制度,形成模型价值评估、精度评估、风险与缺陷管理的成熟体系
2. 央企数字化研究院牵头建立模型评测中心,结合各类场景牵头建设数据模型标准,并实践模型评测,赋能行业
同时的,模型治理的另一面是算法的合规性。在数字经济时代,越来越多的生产活动需要依靠算法模型开展,算法与业务的深度融合会是未来的趋势,对于业务的合规性要求也会传导到对算法的合规性要求。在这方面,我们欣喜的看到深圳市已经开始了先行先试,在今年8月份宣布拟建立人工智能分级监管机制。
同时,行业监管也在逐渐建立之中,如今年8月份国家网信办发布了关于互联网信息服务算法推荐的管理规定。
今年3月份,国家金融行业标准委员会发布了人工智能算法金融应用评价规范的标准。
在这里,我们建议在央企行业也应建立相应的行业规范与标准,在数据安全法、数据隐私法的框架内,发展测评中心,对算法使用的合规性、公平性进行测试。
最后,我们在建设数字经济过程中离不开算力的支持。
清华交叉信息学院与交叉核心院在提升计算效率的智能芯片与进行隐私计算的智能芯片方面,都进行了前沿研究,也已经成功孵化出了落地的技术成果。在这些方面我们会基于央企数字化研究院的平台,为广大央企的数字化转型与数字经济建设进行赋能,提供算力基础。
推荐阅读: