数据目录是什么?您为何需要它?
共 3758字,需浏览 8分钟
·
2022-07-08 00:40
在上文我们简单介绍数据目录的定义,也就是使用元数据来帮助企业管理数据。接下来,我们使用图书馆作类比,带您详细了解数据目录。
当您前往图书馆查找某一图书时,您可以使用图书目录来查找该图书是否存在,了解它的版本、位置以及相关描述。您可以使用所有这些信息来决定是否真的需要这本书,了解如何找到它。
当今的许多对象存储、数据库和数据仓库就相当于一座座图书馆。
我们再回到图书馆和图书目录。现在,我们对图书目录进行扩展,涵盖整个国家的所有图书馆。想象一下,这样您就可以在一个界面中查找整个国家中储藏了您所需图书的所有图书馆,查找关于您所需的每一本图书的所有详细信息。
企业数据目录之于数据,正如图书目录之于图书。它可以为您提供一个整体视图,提供关于您所有数据的深度可见性,而不仅仅是一次只查看某一项数据。
您为什么需要这样一个视图呢?
需耗费大量时间和精力查找和访问数据 数据湖变成了数据沼泽 无通用业务词汇 难以理解“黑暗数据”的结构和类别 难以评估数据来源、质量和可靠性 无法捕获部落知识或丢失的知识 难以重用知识和数据资产 需手动和临时进行数据准备
我们 CRM 应用中的模式变更将产生哪些影响? Peoplesoft 和 HCM 数据结构有何不同?
从何处可以找到和查看一些地理位置数据? 如何轻松访问数据湖中的数据?
我们是否真的在改善运营数据质量? 我们是否为重要的关键数据元素定义了标准?
哪些人可以访问客户的个人信息? 我们是否为所有数据定义了保留策略?
在过去几年中,随着需要管理和访问的数据的数量日益增长,数据目录这一概念开始流行起来。在这一切的背后,是云、大数据分析、人工智能和机器学习正逐渐改变人们查看、管理和使用数据的方式 — 不仅要管理数据,还要访问和充分利用数据。
使用数据目录,您可以更好地使用数据,获得以下优势:
节省成本 提高运营效率 增强竞争优势 改善客户体验 减少欺诈,降低风险 等等
数据发现还包括通过各种方式来理解数据的形态和特征,例如简单的值分布和统计信息,或者重要且复杂的个人身份信息 (PII) 或个人健康信息 (PHI)。
许多人可能不熟悉元数据,我们有必要先介绍一些简单的概念。元数据是什么?元数据分为 3 类:
技术元数据:模式、表、列、文件名、报告名 — 源系统中记录的所有信息
业务元数据:通常指用户具备的关于组织资产的业务知识,包括业务描述、备注、注释、分类、适用性、评级等等。
操作元数据:这一对象的刷新时间?它由哪一个 ETL 作业创建?表格被访问次数有多少?具体有哪些?
在过去几年里,这些宝贵的元数据的使用方式发生了一次细微的变革。曾经,元数据仅用于审计、来历追溯和报告。如今,无服务器处理、图形数据库等技术创新,尤其是全新、更加便捷的 AI 和机器学习技术正在突破元数据的界限,带来新的可能。
在今天,元数据可增强数据管理。从自助数据准备到角色和数据内容库访问控制,自动化数据打通,异常监视和警报,自动化资源供应和扩展等等,元数据可以全面增强所有这些功能。
数据目录可以使用元数据帮助您实现比数据管理更强大的功能。
一个优秀的数据目录应当具备以下功能:
①数据搜索和发现:数据目录应当具备灵活的搜索和过滤选项,从而赋能用户快速找到相关数据集,以实施数据科学、分析或数据工程;按照数据资产的技术层级来浏览元数据。此外,如支持用户输入技术信息、自定义标签或业务术语,数据目录可以进一步改善搜索功能。
②从各种数据源收集元数据:请确保您的数据目录可以从各种互联数据资产中收集技术元数据,包括对象存储、自治驾驶数据库、本地部署系统等等。
③元数据管理:数据目录应支持主题专家通过企业业务术语表、标签、关联、用户自定义注释、分类、评级等形式来贡献业务知识。
④自动化和数据智能:对于大规模数据,人工智能和机器学习通常必不可少。因此,数据目录应利用 AI 和机器学习技术来处理所收集的元数据,让所有可以自动化的手动任务都实现自动化。此外,人工智能和机器学习还可以切实增强数据功能,例如为数据目录用户以及现代化数据平台上其他服务的用户提供数据建议。
⑤企业级功能:您需要利用强大的企业级功能来正确使用您至关重要的数据资产,例如身份与访问管理功能以及基于 REST API 的重要功能。同时,这还意味着客户和合作伙伴可以贡献元数据(例如自定义收集器),通过 REST 公开其应用中的数据目录功能。
除此之外,您的数据目录还应当成为事实上的系统目录,从而为所有持久层(例如对象存储、Hadoop、数据库和数据仓库)以及跨所有数据存储运行的查询服务提供抽象。
正是因为如此,数据目录已不再仅仅是锦上添花,而是成为了一项必不可少的工具。
推荐阅读: