久其女娲数据治理平台 鲲鹏
共 5617字,需浏览 12分钟
·
2020-11-12 17:08
商品详情
商品亮点
- (1)遵循IRP理论实现对全域信息资源规划的支持,采用统一的“数据-信息”两层资源目录体系实现从数据到信息的加工处理全过程的管理。
- (2)支持二维表、指标和多维数据模型的建模,全方位支持政企客户应用系统的构建。
- (3)内置数据编排引擎,实现对异构数据的一站式清洗、转换和整合。
- (4)支持普通业务人员根据业务需求自定义数据稽核规则,实现闭环的数据质量管控。
- (5)将集中式元数据管理、分布式数据处理和服务化数据共享交换融为一体。
商品说明
版本: V2.0 | 交付方式: License |
适用于: Windows/Linux/Unix/其他 | 上架日期: 2020-11-12 |
交付SLA: 30 自然日 |
久其女娲数据治理平台搭建了一套集信息资源管理、数据建模、数据集成整合、数据质量稽核、数据共享交换于一体的全方位大数据治理平台。
• 信息资源管理平台
信息资源(Information Resources)与人力、物力、财力和自然资源一样,都是企业和政府的重要资源。信息资源管理(Information Resource Management,简称IRM)是企业和政府管理的必要环节,应该纳入企业和政府管理的预算。信息资源管理包括数据资源管理和信息处理管理。信息资源规划(Information Resource Planning,简称IRP)是对政府和企业生产过程和经营管理信息的采集、处理、传输、利用的全面规划,是侧重数据流分析,为消除“信息孤岛”和“信息烟囱”,实现信息资源整合与应用系统集成,实现政企和企业内外部数据共享和数据交换的总体规划。
久其信息资源管理平台,遵循信息资源规划(IPR)方法论,可以实现对政府和企业的所有信息资产的管理和规划,支持构建统一的数据标准;为现有应用系统附加语义层描述,创建统一的、面向事务的数据资源目录;基于数据资源目录,创建面向业务的统一的信息资源目录;可以结合数据中心,为所有数据提供索引管理,实现数据的分析、共享和交换。
久其信息资源管理平台的主要特点如下:
可以实现从概念数据建模到逻辑数据模型的管理,即实现两类资源目录的管理和查看,一类为面向应用系统的数据资源盘点目录,一类为面向业务主题域支撑业务使用的信息资源目录
以可视化、自动化、智能化的方式,实现数据资源目录管理,即支持按照应用系统进行编目管理,赋予每个数据资源业务语义,可以快速从数据库中生成资源目录,并支持跟常用建模工具PowerDesigner、ERWin等无缝集成
数据资源目录可管理结构化、半结构化和非结构化的各类数据资源
支持的数据来源包括所有JDBC连接的数据库、文件目录、HDFS、Hbase等,并可根据需要快速扩展新的数据来源
信息资源目录基于数据资源目录重新进行组织,并赋予更丰富的业务语义,同时支持对新资源的规划设计
信息资源目录管理提供数据编排功能,数据编排功能提供丰富的适配器,实现信息资源的进一步加工处理
支持自定义资源的注册流程、订阅审批流程,保证资源共享交换的安全性
提供百科式的数据资源和信息资源浏览方式,展示方式清晰明了;同时界面右侧提供浮动导航,可以快速定位到关注点
通过数据图谱的方式进行血缘关系追溯和关联关系查询,了解数据的来龙去脉
可以从多维度进行数据资源和信息资源的统计和盘点
支持资源目录重构,不同角色的用户从自己需要的角度构建资源目录树
支持标签库管理,自动生成每一个数据资源的全文索引,快速搜索并准确定位到数据资源和信息资源
统一的数据标准管理,并提供全自动化数据质量管控功能,实现数据治理
敏捷的可视化分析展现,实现资源的查询和统计分析
支持数据订阅,按需推送订阅信息
通用型平台,数据资源和信息资源的属性字段可以根据不同的客户需求自定义扩展,同时界面布局也可以自定义配置
• 数据建模平台
数据模型是企业信息化的核心问题。通过数据建模定义整个企业信息化体系的数据标准,从根本上解决数据分散重复、口径不一致、共享困难造成的信息孤岛等问题,为数据的有效整合奠定坚实的基础,全面提升经营决策、运营管理的品质。
久其大数据治理平台提供了统一元数据建模工具,支持包括从底层数据仓库到上层的数据集市,从多维数据模型到离散的指标数据模型,从结构化数据到非结构化数据,再到普通二维表建模的全面支持,能够构建一套统一的数据视图,为整合各个业务系统的数据、实现跨业务领域分析打下坚实的基础。
久其数据建模平台的主要特点如下:
全面的元数据管理,提供了从底层数据仓库到上层的数据集市,从多维数据模型到普通二维表建模全面支持,为企业构建了一套统一的数据视图,这是企业整合各个业务系统的数据、实现跨业务领域分析的基础。
基于业务的语义层建模,使最终用户不必再面对大量难于理解的底层技术概念,为上层的分析应用提供了良好的支撑。
智能数据预处理,通过分析用户的访问习惯事先生成相关的聚合和中间计算结果数据,有力地保证了查询分析功能的快速响应。
统一的数据访问接口,系统对外提供了自主研发的BQL和SOA两种通用的数据访问接口,从而实现了与第三方系统的业务交互:
支持自上而下的建模过程,使建模人员能够从一开始就聚焦于应用领域的业务需求和数据的业务含义,而不必过多地关心底层的技术实现细节,提高建模的效率和准确性。
元数据与发布数据的逻辑分离,把数据建模过程与实际应用过程相分离,互不影响。
基于事务的部署模式,使得部署过程安全可靠,不会因为错误的参数而破坏生产环境的数据。
• 数据集成与整合平台
久其数据集成与整合平台是基于大数据技术的、对异构数据源进行数据抽取、清洗、转换和加载的数据集成工具,产品集成了久其公司在数据处理领域多年的技术经验,同时在海量数据处理技术方法上又进行了大量探索与突破,实现了一个高效、灵活的数据集成平台。
久其数据集成与整合平台主要特点如下:
完备的数据源和目标的支持,包括关系型数据库(支持常用的数据库如oracle、mysql、sqlserver以及其他支持jdbc协议的数据库),文本文件(分隔符文本、定长文本等格式),其他数据文件(excel、xml、json等),常用的网络协议(HTTP/HTTPS、FTP/FTPS、webservices),以及其他常用的业务系统数据源。
丰富的任务及适配器组件,常用的任务主要包括:数据流任务、文件操作任务、FTP任务、邮件任务、SQL任务、存储过程任务、Hadoop工具相关任务等。常用的适配器组件主要包括:SQL输入、数据库输出、文本输入、文本输出、excel行浮动输入、excel交叉浮动输入、计算字段、查找、过滤、关联、分组、转置适配器等。对于不常见的业务逻辑,产品提供了插件式的可扩展机制,允许开发人员针对产品进行二次开发,在不需要重新对产品进行编译的情况下,将扩展的任务或者适配器组件添加到产品中,并集成到现有ETL流程中。
体系化的异常处理机制,可以处理数据集成和整合过程的各种数据错误和程序异常。系统中的异常处理包括三个层面:系统运行时异常、元数据配置异常、业务数据异常
统一的公式描述体系,久其公式引擎是久其自主研发的新一代公式处理器,采用类Excel语法,与Excel函数基本保持一致,对于熟悉Excel的使用者来说可以轻松上手。同时公式引擎能够自动适配所有关系型数据库,并将大部分公式转化为数据库SQL直接执行。公式引擎内置六大类近百个函数支持,包括字符串操作、数值运算、日期计算、数据容错、模糊匹配、二进制处理等各种操作场景都可以支持。
灵活的流程调度模式,平台提供了多种流程调度模式,包括按时间触发、按文件触发、按状态触发、按流程触发等,以满足项目对流程自动化的需求。基于流程自动化实现的系统可以真正实现自动自发、无人值守。
跨防火墙的数据提取方案,平台通过数据代理提供了跨防火墙数据提取的能力,解决了在分布式数据提取环境下防火墙对数据传输的影响。
脚本调用支持,平台可以调用系统的批处理文件以及shell脚本,使ETL流程与操作系统的任务和命令进行交互,同时ETL流程下的环境(比如参数)也能传递到脚本中。同时还支持基于标准Javascript脚本引擎,允许开发人员通过写脚本的方式快速的将业务逻辑整合到流程中。
REST服务集成,平台提供了restful形式的API,第三方系统可以通过API来调用ETL流程进行集成。
并行计算及大数据的支持,平台提供分布式部署模式,提供对密集计算任务的分布式并行计算机制。合了Spark内存计算引擎,可以轻松应对海量数据的清洗和转换操作,以解决拥有大规模密集的计算任务的需求。
• 数据质量稽核平台
数据稽核是从业务数据的内在结构或者业务数据之间的关系出发,通过信息化手段对业务数据的完整性、准确性、合理性等进行检查和评估,揭示数据存在的问题和潜在风险。
久其数据质量稽核平台,可以实现闭环的数据治理和管控:从源系统数据获取数据 数据稽核 产生稽核结果 生成标准化稽核报告、预警邮件和短信 分发稽核报告、预警邮件和短信 形成待办事项 处理待办事项 修正源系统数据。
数据质量稽核平台共有九大功能特点:
可以自定义稽核模型(稽核对象、稽核周期、稽核规则、稽核数据存储)
通过稽核目录、稽核模型、稽核对象可以自定义数据稽核体系
以语义化的方式描述稽核规则,无需编写SQL
分布式稽核任务并发执行:按照稽核周期执行稽核任务,支持将多个稽核任务分发到各个服务器上进行并发执行
可以生成图文并茂的标准化稽核报告
可以将稽核预警信息以邮件、短信的方式进行推送,并生成待办事项
可以接收代办事项,并在线处理和审阅代办事项
自动生成统计分析图表,展示每次数据稽核的概览情况和分项情况
支持定义考核指标考评数据治理情况,包括数据质量和工作质量
• 数据共享交换平台
久其数据共享交换平台是在保持相对独立性、松耦合的前提下,将分散建设的若干应用信息系统,通过数据共享交换平台建立起系统间点对点的信息高速通道,从而实现分布、异构的应用子系统间信息/数据的实时、高效、安全的数据共享与交换,且在数据传输过程中支持集成协议转换、加密、压缩、交换过程监控等功能保证数据的有效交换。具体功能包括:
统一的数据资源管理,支持数据目录、数据订阅、用户权限、数据审批流程等功能
多样的数据源和目标,支持多种类型的数据源和数据目标,包括不同类型的数据库、文件目录等
安全高效的传输与交换,实现数据在不同数据源和目标应用之间的高效、安全、可靠的传输和交换
丰富的交换模式,支持丰富的数据接口模式,包括数据库、文件、REST API、ESB、消息中间件等
支持数据服务,通过虚拟数据API无须原厂商参与,即可快速完成数据资源的注册、管理和交换
灵活的数据转换,支持丰富的数据适配器及全图形化的配置界面,实现在数据传输过程对数据进行适当的清洗和转换
完整的过程监控:支持对数据传输过程的监控、管理和调度,包括CPU、内存、日志、计划任务等
快速应用:支持多种形式拓扑结构部署,支持快速部署、实施和管理
数据管理平台有两种规格服务,分为专业版和标准版,专业版包括:数据源管理、数据编排、数据建模、数据资产管理(含数据标准管理、标签库管理、数据资源管理、数据资源浏览、信息资源管理、信息资源浏览、血缘分析)、数据质量稽核、数据共享交换(含数据服务)、用户权限管理、日志管理。标准版包括:数据源管理、数据编排、数据资产管理(含数据标准管理、数据资源管理、数据资源浏览)、数据共享交换(不含数据服务)、用户权限管理、日志管理
• 信息资源管理平台
信息资源(Information Resources)与人力、物力、财力和自然资源一样,都是企业和政府的重要资源。信息资源管理(Information Resource Management,简称IRM)是企业和政府管理的必要环节,应该纳入企业和政府管理的预算。信息资源管理包括数据资源管理和信息处理管理。信息资源规划(Information Resource Planning,简称IRP)是对政府和企业生产过程和经营管理信息的采集、处理、传输、利用的全面规划,是侧重数据流分析,为消除“信息孤岛”和“信息烟囱”,实现信息资源整合与应用系统集成,实现政企和企业内外部数据共享和数据交换的总体规划。
久其信息资源管理平台,遵循信息资源规划(IPR)方法论,可以实现对政府和企业的所有信息资产的管理和规划,支持构建统一的数据标准;为现有应用系统附加语义层描述,创建统一的、面向事务的数据资源目录;基于数据资源目录,创建面向业务的统一的信息资源目录;可以结合数据中心,为所有数据提供索引管理,实现数据的分析、共享和交换。
久其信息资源管理平台的主要特点如下:
可以实现从概念数据建模到逻辑数据模型的管理,即实现两类资源目录的管理和查看,一类为面向应用系统的数据资源盘点目录,一类为面向业务主题域支撑业务使用的信息资源目录
以可视化、自动化、智能化的方式,实现数据资源目录管理,即支持按照应用系统进行编目管理,赋予每个数据资源业务语义,可以快速从数据库中生成资源目录,并支持跟常用建模工具PowerDesigner、ERWin等无缝集成
数据资源目录可管理结构化、半结构化和非结构化的各类数据资源
支持的数据来源包括所有JDBC连接的数据库、文件目录、HDFS、Hbase等,并可根据需要快速扩展新的数据来源
信息资源目录基于数据资源目录重新进行组织,并赋予更丰富的业务语义,同时支持对新资源的规划设计
信息资源目录管理提供数据编排功能,数据编排功能提供丰富的适配器,实现信息资源的进一步加工处理
支持自定义资源的注册流程、订阅审批流程,保证资源共享交换的安全性
提供百科式的数据资源和信息资源浏览方式,展示方式清晰明了;同时界面右侧提供浮动导航,可以快速定位到关注点
通过数据图谱的方式进行血缘关系追溯和关联关系查询,了解数据的来龙去脉
可以从多维度进行数据资源和信息资源的统计和盘点
支持资源目录重构,不同角色的用户从自己需要的角度构建资源目录树
支持标签库管理,自动生成每一个数据资源的全文索引,快速搜索并准确定位到数据资源和信息资源
统一的数据标准管理,并提供全自动化数据质量管控功能,实现数据治理
敏捷的可视化分析展现,实现资源的查询和统计分析
支持数据订阅,按需推送订阅信息
通用型平台,数据资源和信息资源的属性字段可以根据不同的客户需求自定义扩展,同时界面布局也可以自定义配置
• 数据建模平台
数据模型是企业信息化的核心问题。通过数据建模定义整个企业信息化体系的数据标准,从根本上解决数据分散重复、口径不一致、共享困难造成的信息孤岛等问题,为数据的有效整合奠定坚实的基础,全面提升经营决策、运营管理的品质。
久其大数据治理平台提供了统一元数据建模工具,支持包括从底层数据仓库到上层的数据集市,从多维数据模型到离散的指标数据模型,从结构化数据到非结构化数据,再到普通二维表建模的全面支持,能够构建一套统一的数据视图,为整合各个业务系统的数据、实现跨业务领域分析打下坚实的基础。
久其数据建模平台的主要特点如下:
全面的元数据管理,提供了从底层数据仓库到上层的数据集市,从多维数据模型到普通二维表建模全面支持,为企业构建了一套统一的数据视图,这是企业整合各个业务系统的数据、实现跨业务领域分析的基础。
基于业务的语义层建模,使最终用户不必再面对大量难于理解的底层技术概念,为上层的分析应用提供了良好的支撑。
智能数据预处理,通过分析用户的访问习惯事先生成相关的聚合和中间计算结果数据,有力地保证了查询分析功能的快速响应。
统一的数据访问接口,系统对外提供了自主研发的BQL和SOA两种通用的数据访问接口,从而实现了与第三方系统的业务交互:
支持自上而下的建模过程,使建模人员能够从一开始就聚焦于应用领域的业务需求和数据的业务含义,而不必过多地关心底层的技术实现细节,提高建模的效率和准确性。
元数据与发布数据的逻辑分离,把数据建模过程与实际应用过程相分离,互不影响。
基于事务的部署模式,使得部署过程安全可靠,不会因为错误的参数而破坏生产环境的数据。
• 数据集成与整合平台
久其数据集成与整合平台是基于大数据技术的、对异构数据源进行数据抽取、清洗、转换和加载的数据集成工具,产品集成了久其公司在数据处理领域多年的技术经验,同时在海量数据处理技术方法上又进行了大量探索与突破,实现了一个高效、灵活的数据集成平台。
久其数据集成与整合平台主要特点如下:
完备的数据源和目标的支持,包括关系型数据库(支持常用的数据库如oracle、mysql、sqlserver以及其他支持jdbc协议的数据库),文本文件(分隔符文本、定长文本等格式),其他数据文件(excel、xml、json等),常用的网络协议(HTTP/HTTPS、FTP/FTPS、webservices),以及其他常用的业务系统数据源。
丰富的任务及适配器组件,常用的任务主要包括:数据流任务、文件操作任务、FTP任务、邮件任务、SQL任务、存储过程任务、Hadoop工具相关任务等。常用的适配器组件主要包括:SQL输入、数据库输出、文本输入、文本输出、excel行浮动输入、excel交叉浮动输入、计算字段、查找、过滤、关联、分组、转置适配器等。对于不常见的业务逻辑,产品提供了插件式的可扩展机制,允许开发人员针对产品进行二次开发,在不需要重新对产品进行编译的情况下,将扩展的任务或者适配器组件添加到产品中,并集成到现有ETL流程中。
体系化的异常处理机制,可以处理数据集成和整合过程的各种数据错误和程序异常。系统中的异常处理包括三个层面:系统运行时异常、元数据配置异常、业务数据异常
统一的公式描述体系,久其公式引擎是久其自主研发的新一代公式处理器,采用类Excel语法,与Excel函数基本保持一致,对于熟悉Excel的使用者来说可以轻松上手。同时公式引擎能够自动适配所有关系型数据库,并将大部分公式转化为数据库SQL直接执行。公式引擎内置六大类近百个函数支持,包括字符串操作、数值运算、日期计算、数据容错、模糊匹配、二进制处理等各种操作场景都可以支持。
灵活的流程调度模式,平台提供了多种流程调度模式,包括按时间触发、按文件触发、按状态触发、按流程触发等,以满足项目对流程自动化的需求。基于流程自动化实现的系统可以真正实现自动自发、无人值守。
跨防火墙的数据提取方案,平台通过数据代理提供了跨防火墙数据提取的能力,解决了在分布式数据提取环境下防火墙对数据传输的影响。
脚本调用支持,平台可以调用系统的批处理文件以及shell脚本,使ETL流程与操作系统的任务和命令进行交互,同时ETL流程下的环境(比如参数)也能传递到脚本中。同时还支持基于标准Javascript脚本引擎,允许开发人员通过写脚本的方式快速的将业务逻辑整合到流程中。
REST服务集成,平台提供了restful形式的API,第三方系统可以通过API来调用ETL流程进行集成。
并行计算及大数据的支持,平台提供分布式部署模式,提供对密集计算任务的分布式并行计算机制。合了Spark内存计算引擎,可以轻松应对海量数据的清洗和转换操作,以解决拥有大规模密集的计算任务的需求。
• 数据质量稽核平台
数据稽核是从业务数据的内在结构或者业务数据之间的关系出发,通过信息化手段对业务数据的完整性、准确性、合理性等进行检查和评估,揭示数据存在的问题和潜在风险。
久其数据质量稽核平台,可以实现闭环的数据治理和管控:从源系统数据获取数据 数据稽核 产生稽核结果 生成标准化稽核报告、预警邮件和短信 分发稽核报告、预警邮件和短信 形成待办事项 处理待办事项 修正源系统数据。
数据质量稽核平台共有九大功能特点:
可以自定义稽核模型(稽核对象、稽核周期、稽核规则、稽核数据存储)
通过稽核目录、稽核模型、稽核对象可以自定义数据稽核体系
以语义化的方式描述稽核规则,无需编写SQL
分布式稽核任务并发执行:按照稽核周期执行稽核任务,支持将多个稽核任务分发到各个服务器上进行并发执行
可以生成图文并茂的标准化稽核报告
可以将稽核预警信息以邮件、短信的方式进行推送,并生成待办事项
可以接收代办事项,并在线处理和审阅代办事项
自动生成统计分析图表,展示每次数据稽核的概览情况和分项情况
支持定义考核指标考评数据治理情况,包括数据质量和工作质量
• 数据共享交换平台
久其数据共享交换平台是在保持相对独立性、松耦合的前提下,将分散建设的若干应用信息系统,通过数据共享交换平台建立起系统间点对点的信息高速通道,从而实现分布、异构的应用子系统间信息/数据的实时、高效、安全的数据共享与交换,且在数据传输过程中支持集成协议转换、加密、压缩、交换过程监控等功能保证数据的有效交换。具体功能包括:
统一的数据资源管理,支持数据目录、数据订阅、用户权限、数据审批流程等功能
多样的数据源和目标,支持多种类型的数据源和数据目标,包括不同类型的数据库、文件目录等
安全高效的传输与交换,实现数据在不同数据源和目标应用之间的高效、安全、可靠的传输和交换
丰富的交换模式,支持丰富的数据接口模式,包括数据库、文件、REST API、ESB、消息中间件等
支持数据服务,通过虚拟数据API无须原厂商参与,即可快速完成数据资源的注册、管理和交换
灵活的数据转换,支持丰富的数据适配器及全图形化的配置界面,实现在数据传输过程对数据进行适当的清洗和转换
完整的过程监控:支持对数据传输过程的监控、管理和调度,包括CPU、内存、日志、计划任务等
快速应用:支持多种形式拓扑结构部署,支持快速部署、实施和管理
数据管理平台有两种规格服务,分为专业版和标准版,专业版包括:数据源管理、数据编排、数据建模、数据资产管理(含数据标准管理、标签库管理、数据资源管理、数据资源浏览、信息资源管理、信息资源浏览、血缘分析)、数据质量稽核、数据共享交换(含数据服务)、用户权限管理、日志管理。标准版包括:数据源管理、数据编排、数据资产管理(含数据标准管理、数据资源管理、数据资源浏览)、数据共享交换(不含数据服务)、用户权限管理、日志管理
用户案例
XX省交通数据资源共享与开放应用平台
项目建立的XX省省级交通运输数据和服务资源目录,涵盖了XX省交通运输厅、公路管理局、高速公路管理局、运管局、水运局、质监局、路政执法局、交通科技通信中心等8大部门50多个系统,涉及基础类、感知类、主题类、开放服务类4大类数据资源。满足了国家和行业的目录资源编制要求,实现了数据资源和服务组件资源的发现和定位。实现了拟对外开放的交通运输数据资源的提供、审核和发布以及开放数据清单维护等功能。满足了行业外政府部门、企业、社会机构和社会公众等对交通运输数据资源的检索、查询、下载等应用需求。
XX省粮食局数据资源中心
XX省粮食局梳理了全省49家粮油加工企业、130家骨干粮库粮食企业、11家粮食交易市场以及省、市、县三级粮食部门粮食业务,对粮政数据、粮库数据、粮油交易数据以及部分互联网数据资源进行体系化编目,建设XX省粮食行业数据标准规范,形成粮食行业大数据资源目录体系,主要包括:基础目录、主题目录、信息共享需求目录和开放资源目录。同时依据业务关系对各类数据进行融合管理,形成标准化、高质量粮食数据资源中心,实现了数据分析和数据共享交换。
XX通信行业数据治理平台
该平台主要实现M域数据治理工作,建成了M域数据中心,实现了闭环的数据质量管控,梳理了统一的数据资产目录。数据中心和数据治理范围涵盖以SAP ERP系统为核心的23个业务辅助类系统以及MDM主数据管理平台,涉及财务、采购、工程、人力等职能域。数据资产管理范围除了前述23个业务辅助类系统的1124张数据库表外,还包括业务月报、专题月报、投资月报、财务月报、统计月报、ODS推送等6大类共5万多个指标且管理的指标属性目前已达到17个。通过数据治理平台,提高数据质量,实现数据广泛共享,并能够将数据作为企业的宝贵资产应用于业务、管理、战略决策中,发挥数据资产的商业价值。
评论