新一代数据基础设施:数据智能平台(附下载)
一、数字化转型背景下,
企业数据平台面临多重挑战
1
数据平台是支撑企业数字化转型的核心基础设施
数据平台是企业进行数据分析和数据应用,从而实现数字化转型的核心基础设施。通常,数据平台包含数据采集与接入、数据存储与计算、数据管理、数据分析与挖掘、数据服务等功能。
图 1 典型数据平台架构
从业务的角度,数据平台支撑了企业数字化转型的各项需求,企业因此能够实现精细化运营,从而降低运营成本、提高运营效率、提升创新能力。具体而言,通过数据平台的应用,企业可以在业务中实现数据驱动,从而达成以下目标:
1)准确洞察用户画像和用户需求;
2)及时感知市场趋势;
3)降低管理和生产成本;
4)设计和生产出更符合用户需求的产品;
5)更快地推出和迭代产品。
2
企业数据管理与应用正面临一系列挑战
近年来,面对市场环境的快速变化,以及政府对发展数字经济的促进举措,企业对数字化的价值的理解愈加深刻。在各行业企业或政府部门纷纷加快数据基础设施的建设的同时,数据在企业经营管理中的应用广度和深度也随之极大地扩展,由此带来数据管理与应用的一系列问题和挑战。
(1)数据规模持续膨胀,数据资产管理重要性提升
随着企业业务的快速发展以及全面的数字化,企业内部业务和数据系统会变得众多,当这些数据汇聚之后,需要处理的各种结构化和非结构化数据的数据规模也因此急剧膨胀。这给企业的数据应用和数据资产管理带来了以下问题:
1)不确定数据价值。企业用户往往不能确定系统中有哪些数据,也不知道自己的业务问题可以使用哪些数据来解决。
2)不能共享数据。企业缺少统一的数据管理标准,导致各业务部门之间难以对数据进行汇聚、共享和使用,从而无法发挥大数据的协同价值。
3)难以获取所需数据。用户获取所需数据的过程太长和复杂,且缺乏有效的数据开发工具,导致用户获取和使用数据存在困难。
(2)数据应用场景持续扩展,敏捷性、易用性、实时性、智能化要求提升
为了充分发挥数据的价值,数据驱动的决策和业务应用正逐渐渗透进企业的各个部门和各个业务线。面对数据应用场景的持续扩展,企业对其底层数据平台也提出更高的技术和能力要求,包括了敏捷性、易用性、实时性、智能化四个方面的要求,具体如下:
敏捷性。企业存在大量数据分析,尤其是创新性的数据分析和应用需求。但传统竖井式建设的信息系统修改困难、集成混乱;企业缺乏自有的技术开发能力,无法快速响应业务需求。
易用性。数据平台逐渐由赋能数据部门转向全面赋能业务部门,而使用传统数据平台需要的编程和数据分析能力是大部分业务人员所不具备的,因此需要新一代的数据平台具备低门槛的自助分析能力,适应不同能力的数据或业务人员。
实时性。企业在生产和运营中存在越来越多的实时决策场景,如何快速查找、分析和获得数据洞察是当前数据平台面临的一大挑战,需要从平台的架构设计、计算和存储引擎,以及业务流程优化上满足数据分析的实时性需求。
智能化。在数据应用越来越多的背景下,企业相关的人力配备已不能满足需求,因此需要平台具备智能化的能力,一方面在数据分析环节引入自动化能力,减少人工操作,降低人力成本。另一方面,通过平台的智能预测能力,提高业务决策效率和能力。
(3) 数据安全合规要求趋严
数字化时代,数据安全风险已经渗透在数据应用中的各个层面,例如数据采集、数据传输、数据存储、数据共享等,因此企业数据泄漏造成的损失和风险的可能在加大。
与此同时,大众对数据隐私的关注,加上监管对数据安全要求的趋严,都促使企业在搭建新一代的数据平台时,需要在各个层级上都建立完善的安全机制防范数据泄漏的风险。
表1 数据安全重点法律法规
二、构建新一代数据基础设施:
数据智能平台
1
数据智能平台的定义
要定义新一代的数据基础设施,我们首先需要阐明在之前的发展阶段中,不同阶段的数据基础设施产生的原因、应用场景和面对新阶段的需求时的局限性。
数据基础设施经过数十年的发展,已经依次经历了三个阶段:数据库、数据仓库、大数据平台。在数据库阶段,企业对数据的使用需求主要是面向管理层从宏观层面对公司的经营状况做描述性分析,处理的数据为有限的结构化数据。在数据仓库阶段,企业对数据的使用需求从面向管理层拓宽到面向业务人员,主要满足一些业务监测和洞察类的数据查询和分析需求,处理的数据依然以结构化数据为主。在大数据平台阶段,企业需要处理大规模、多源异构的数据,对业务的监测和洞察也更多地偏向诊断性和预测性分析。
而到了2019年之后数字化转型的新阶段中,企业对数据应用的范围从之前的管理层和部分业务人员扩展到了跨部门、跨企业的数据共享,需要进行大量面向业务,实时和智能决策的探索式、自助式分析,并且需要处理超大规模的多源异构和实时数据。如第一章节所述,这些变化对数据管理和应用带来了一系列挑战和需求,传统的数据平台已经无法满足,新一代的数据基础设施即是要解决这些问题。
图 2 数据基础设施的演进历程
因此,新一代的数据基础设施,数据智能平台,可以被定义为企业数字化运营深入阶段的统一数据能力平台,能够对数据资产按统一标准进行管理以方便数据可用,并满足企业对数据应用的敏捷开发、实时响应、简单易用、智能分析等需求,同时具备完善的数据安全机制。
2
数据智能平台的核心能力
基于对数字化转型深入阶段,企业在数据管理和应用中需要面对和解决的问题的理解,以及对一些行业领先企业在搭建数据智能平台中的实践案例的调研和经验总结,正在兴起的新一代数据智能平台需要具备云原生、AI增强、敏捷开发与应用、实时数据处理与分析四大核心能力(如图3所示)。
图3 数据智能平台的四大核心能力
(1) 云原生
云原生是指在应用的设计阶段就为了云的运行环境而设计,包含微服务、容器化、DevOps、持续交付等特征。云原生架构能够为数据平台带来以下主要能力优势:
1)云原生架构下大数据组件都是以容器化的形式来部署,企业因此能够快速的开发、测试、迭代和上线大数据应用,并且方便了数据的共享和复用。
2)快速集成新的开发工具。企业经常需要在数据平台中尝试新的功能组件,由于主流的开源软件基本都提供了容器化部署,因此能够快速集成到云原生架构的数据平台中。
3)降低系统复杂性和运维成本。在云原生架构的数据平台中,Kubernetes、Mesos等工具能够实现统一的资源管理和调度,这极大提高了系统复杂性,提高了运行效率,并且在数据平台中部署和运行分布式系统也更加便捷。
4)轻松实现存算分离和弹性伸缩,降低使用成本。云原生架构能够轻松实现计算和存储资源的分离,企业因此可以按照需求分别使用存储和计算资源,这降低了使用成本,也简化了多云和混合云部署。
(2)AI增强
AI增强是指利用机器学习和人工智能技术使数据清洗与准备、数据分析与可视化、机器学习等分析过程中实现部分环节的自动化,从而节省大量的人力成本。AI增强的自动化能力主要体现在数据智能平台运营过程中的以下环节:
1)数据清洗与准备:自动匹配,联接,分析,标记和注释数据;推荐用于连接、丰富、清洗数据的最佳方法;自动执行重复的转换和集成;自动识别数据沿袭和元数据。
2)数据分析与可视化:自动查找和描述数据中的相关性、异常、聚类、关键驱动因素和预测等;自动生成图表或报表;可视化或对话界面(NLQ&NLG)查找和分析数据。
3)机器学习:自动特征工程;自动模型选择和参数调整;自动模型部署和监控。
(3)敏捷开发与应用
数字化的核心目标之一是要能够支撑企业的商业创新,尤其是当数据和数据应用的规模和复杂性越来越大的时候,企业要去尝试各种新的数据应用,就需要数据平台具备相应的敏捷响应能力。数据智能平台的敏捷性主要包括了工具集成的敏捷性、数据开发的敏捷性、数据分析和应用的敏捷性。
1)工具集成的敏捷性。当企业需要尝试新的数据应用时,经常需要用到一些新的分析框架,如前文提到,云原生架构能够为企业提供快速接入和部署新的工具或组件的敏捷化能力。
2)数据开发的敏捷性。数据开发的目的是使用各种工具,包括数据建模、数据探索、数据查询、机器学习、数据可视化等,来完成数据分析。要实现敏捷的数据开发,通常需要企业构建一站式的数据集成和开发平台,提供大数据的汇聚、加工、服务、资产管理等全流程能力,并降低其使用门槛。
3)数据分析和应用的敏捷性。实现数据分析和应用的敏捷性数据平台在底层数据管理和数据分析工具上有相应的功能设计,比如,通过建立标签体系方便用户将数据快速应用于业务,通过提供可视化的分析工具灵活地满足用户的分析需求,通过AI增强能力自动识别有价值的数据并推送给用户等。
(4)实时数据处理与分析
为了应对企业越来愈多的实时性数据分析需求,数据平台需要在以下层面具备实时性的数据处理能力:
1)实时的数据接入和数据采集。应用Kafka、RocketMQ等工具实现数据的实时采集。同时,对于核心业务系统数据,进行被动采集;对于用户访问行为习惯等数据,则会进行主动采集。
2)实时的数据计算与查询。基于Flink等实时计算引擎,以及指标计算、规则计算、模型计算等多种计算处理能力,构建数据平台的实时计算和查询能力。
3)实时的数据分发。通过Kafka实现灵活的数据分发,以承载不同用户的实时业务。
4)流批一体。由于企业在业务分析中使用的数据范围越来愈多地横跨历史数据和实时数据,需要数据平台具备流批一体的能力,用一套逻辑描述流与批业务,用一个引擎也能处理实时和离线数据。
3
新一代数据智能平台的架构
结合前文所述的当前企业在数据管理和应用中面临的挑战,以及对一些领先企业搭建的数据智能平台的架构进行归纳总结,如图4所示的数据智能平台的典型架构。
图4 数据智能平台的典型架构
可以看到,新一代的数据智能平台的架构至少在五个层面具有区别于传统数据平台架构的特征。
表2 数据智能平台与传统数据平台的主要区别
三、数据智能平台的建设方法论
类似传统数据平台的构建,数据智能平台的构建是一个需要从全局进行规划和建设,并在后续运行中能够持续迭代的系统性工程,因此需要一套科学和完备的方法论指导这一过程。
通过对多家领先企业的数据智能平台实践案例进行调研,总结了数据智能平台建设过程中比较共性的最佳实践方法论,涉及的核心环节主要包括顶层战略规划、应用场景规划、基础架构设计、数据规范与数据架构设计、组织与人员规划等方面。他们构成的数据智能平台建设的主要流程,以及具体包含的内容如图5所示:
图 5 数据智能平台建设的关键环节
1
顶层战略规划
数据智能平台是支撑企业数字化转型的新一代数据基础设施,是企业各部门各业务线共同的数据平台和数据服务体系,因此,数据智能平台的建设的核心目的是服务于企业的整体战略目标和业务目标。
同时,数据智能平台的建设不仅仅涉及技术架构,还会涉及企业的业务模式和组织架构,因此企业应当以顶层战略为起点,根据业务目标规划数据智能平台的的建设蓝图与路径。
此外,传统企业的部门墙问题明显,要实现各部门间的沟通协作,共建数据智能平台,需要企业决策层在组织架构和资源方面给予统一的调配和支持。
2
应用场景规划
数据智能平台的价值最终需要通过业务场景中的数据应用来体现,因此,平台建设必须应用场景规划先行,数据智能平台应用场景规划需要考虑以下关键因素:
评估企业业务需求和数据现状。从具体的业务需求场景厘清相关的业务线、相关岗位和业务流程,梳理其中的业务需求。同时,对企业的数据资产进行评估,厘清企业有哪些数据、需要补充哪些数据等。
明确场景实现优先级。企业需要基于企业战略与业务目标,可实现的业务价值、数据应用的实现成本、数据应用的可行性等方面进行评估,确定哪些优先级和紧急度比较高的场景可以应用数据平台解决业务问题。
调研和参考外部案例。企业在建设数据平台前应当尽可能多地进行相关调研,并参考同行实践案例,总结相关经验。同时,可以借助有成熟经验的数据平台建设厂商帮助企业解决相关问题。
3
基础架构设计
好的基础架构设计能够让项目快速落地,并支持在现有系统上快速开发新功能、引入新数据,而一旦选择某个技术架构并开始实施,后面出现问题再来修改的成本很高。构建新一代的数据智能平台需要在基础架构设计上考虑以下要点:
1)引入云原生架构,以便快速开发、测试、上线和迭代数据应用,同时满足在工具集成、系统运维、以及存储和计算资源上的各种敏捷性要求。
2)应用多种数据处理引擎应对多样化的数据分析场景需求,重点是为平台构建智能化和实时化的数据处理能力。
3)对数据和数据应用资产进行统一的管理,避免数据资产不明确、使用复杂、效益低下等问题,方便数据资产的使用、共享和复用。
4
数据规范与数据架构设计
为了保证用户能够在数据平台中快速找到自己所需的数据,企业需要对数据架构,即数据的组织方式,以及数据规范,即数据平台中输入和输出的数据符合规范,进行合理地设计。
1)企业需要根据业务目标及业务流程设计平台的数据架构,包括平台提供的明细数据、汇总数据、数据分析结果、数据服务等。
2)对数据平台的输入数据和输出数据进行统一规范,如在所有业务系统中使用统一的全局ID,用原子指标、统计颗粒度、业务限定等维度来派生指标名称,构建指标体系。
5
组织与人员规划
数据智能平台的能力与业务高度相关,因为平台的搭建需要IT部门、数据部门、以及各业务部门沟通协调,对人员进行统筹安排。根据企业数据能力现状,在集中式和去中心化两种人员模式中选其一。
图 6 数据智能平台建设推进方式
1)集中式模式:组建一个专门的数据智能平台团队,由该团队负责所有数据能力的规划和开发。该模式好处在于数据能力的规划和实现比较直接,能够快速落地,难点在于需要团队理解业务。该模式适合公司业务体系相对简单,且软件在企业内部只是辅助工具的传统型企业。
2)去中心化模式:由传统的数据平台团队搭建底层的平台,各业务部门在平台上开发和使用所需的数据应用。该模式好处在于业务部门对业务最理解,能够开发出最满足业务需求的数据应用,且后续迭代也更方便,难点在于需要处理好部门分工和协调的问题。该模式适合业务线庞杂,业务定制化需求较多的大型企业。
推荐阅读: