数据资产管理:数据发现,发现什么,怎么发现?

共 4734字,需浏览 10分钟

 ·

2022-06-27 21:49

导读:今天我们继续聊数据资产管理这个话题。


作者:石秀峰
来源:谈数据(ID:learning-bigdata)




此前的文章《数据资产管理:企业的数据资产怎么盘?》中,我们对数据资产梳理和盘点的方法、流程、模板进行了介绍,相信大家对数据资产盘点应该有所了解了。可能有人会问,数据资产盘点都是人工在做,有没有更智能的方法,能够自动盘点数据,让数据更容易查找和使用?

嗯,有的。它就是经常配合BI工具(商业智能)一起使用的数据管理工具——数据发现。


01 数据资产发现,是什么?

数据资产发现是一个可视化、智能化的数据管理工具,它的定位是使业务和技术人员能够在需要时更容易找到、理解和使用他们想要的数据。

这个概念是不是似曾相识?是的,数据资产发现与数据资产目录在定位上很相似,从本质上讲,数据资产发现就是一种更智能的数据资产目录工具。

如果我们将大数据比作石油的话,数据发现就是勘探、采集、处理和炼化石油的过程,它能够更加自动化的识别数据资产,对数据进行迁移、清洗、标记、编目和可视化,从而最大化的释放数据价值。

通常来讲,数据资产发现具备如下能力:

1. 多数据源连接

数据资产发现可以连接多个数据源,实现数据的可视化、集成和迁移。支持的数据源除了结构化数据,还能够对非结构化数据、半结构化数据的关键元数据进行识别和采集。

2. 元数据分析

对元数据信息进行统计分析,可视化展示数据源的元数据,包括数据表的大小、注释、列数量、时间列数量、主键数量等信息,更细一步地,还统计了列级别的元数据,包括列注释、字段类型、列长度、是否主键列等信息。

3. 数据分类和编目

数据发现与数据分类密切相关,通过自然语言处理、语义解析,根据数据的有用性、敏感性或安全性要求进行识别、分类和编目,形成业务、技术多个视角能够识别、查询和浏览的数据资产目录。

4. 清理和准备数据

有了数据目录,用户就可以轻松找到想要的数据。但是找到了数据,不一定就意味着它能直接使用,因为这些数据往往还存在很多的质量问题,必须要对这些数据作进一步的清理。

数据发现工具一般具备自助数据准备和自动进行数据清理功能,提供有关值域范围、异常值、错误值和其他数据属性和问题的检查和处理,为数据共享和分析提供支撑。

5. 数据探索

数据探索是帮助业务人员整合来自各种来源的数据,以了解数据结构并构建交互式可视化来解释该数据。在数据探索中,用户通过使用人工智能技术,来查看自各种来源的数据,并尝试从这些数据中提取重要或有意义的信息。

数据发现工具使用热图、数据透视表、饼图、条形图和地理地图等多种方法来帮助用户从数据中获得洞察力,从而实现业务目标。



02 数据资产发现,发现什么?

很多企业数据资产管理的最大痛点就是数据分散,企业不知道自己有哪些数据可用。企业数据大部分分散在不同的系统、不同的数据源和不同的设备中,识别、分类、处理和分析数据,并从中获得洞察力对任何企业都至关重要。

那么,数据发现到底能够发现什么?

  • 数据的位置:数据发现通过连接数据源、采集和分析元数据,能够识别企业有哪些数据,并定位这些数据在哪里存放,谁可以访问它。
  • 数据的结构:数据发现可以自动解析数据的结构,包括对结构化、半结构化和非结构化数据的的数据特征提取,通过统计模型对数据进行分类。
  • 数据的传输:数据发现捕获数据的流向,了解传输哪些数据、如何传输以及通过哪些渠道传输。
  • 敏感的数据:数据发现通过内置的数据口径、标准和规则,可以自动识别数据的技术属性和业务属性,可以快速对身份证号码,姓名,地址,手机号、银行账号等敏感信息进行识别、分类和跟踪,方便评估安全或隐私风险并定义缓解策略。
  • 数据的问题:数据发现通过数据质量检核,可以对数据集中的数据值域范围、异常值、错误值、重复数据等数据问题进行稽核,快速发现数据集中的问题数据,并执行数据清理,以提高数据质量。
  • 数据的含义:数据发现通过丰富的图表,通过可视化的方式展示数据资产地图,直观清晰的展现数据富含的意义、用途等,使得用户可以快速的了解数据,并从数据中获得洞察力。


03 数据资产发现,怎么发现?

当下,数据资产发现主要有两种形式:手动发现和智能发现。

1. 手动数据发现

在过去 20 年里,在机器学习进步之前,数据相关工作人员对数据的相关作业,如:发现数据、采集数据、处理数据、分析数据等,大部分需要依靠人类的脑力和体力。简单地说,人们通过人为的方式,识别和记忆关于哪些数据可用,存储在哪里,为什么需要,以及为最终用户提供带来什么价值。

后来,企业开始有意识的管理数据,通过监控元数据和数据血缘,发现并了解数据分类和流程。

数据管理员,通常是具有复杂技术和知识的人才能胜任,负责企业数据资产的盘点和管理,基于一定业务规则对数据资产进行分类和编目。在这一过程,数据管理员通过手动的方式建立数据目录、绘制数据地图,以理解企业中的数据资产。而这一方式,一直沿用至今。

2. 智能数据发现

大数据时代,数据呈爆炸式增长,且数据在企业业务发展的过程中,扮演的角色越来越重要。传统手动发现数据的方式,在应对企业的数据管理和使用需求,以及大规模、多样化的数据增长情况下,显得越来越吃力。因此,企业迫切需要一种更加自动化、智能化的数据发现工具,来帮助企业从数据中获得更深入的洞察力。

随着技术的进步,智能数据发现工具逐步成熟了起来。智能数据发现主要使用增强分析、自然语言处理、机器学习等人工智能技术,对数据进行定位、探查、清理、集成和可视化,来呈现和洞察数据价值。智能数据发现是一个飞跃,通过对可用数据源的整体理解和分析,在黑匣子中进行一些处理并得出合理答案。

有了AI的加持,数据发现有了令人兴奋的创新方向:

  • AI 技术可用于数据准备,例如:标准化数据、处理缺失数据、字符串模式识别等。
  • 算法可用于识别和关注相关变量组数据中的特定模式或异常值。
  • 时间序列分析对模式识别、异常值检测和表关系发现具有不同的需求和意义。
  • 可以收集、分析专家用户的行为数据,并用于影响推荐的分析操作。

对此,也有一些专家认为数据发现类似于数据挖掘,这是一些公司用来尝试从大型数据集中提取可操作数据的过程。在某些方面,数据发现也可以通过与电子发现(e-discovery)的相似性来解释;例如,在涉及法律领域的电子发现中,指定的 IT 专业人员从可能适用于案件相关的大型数据集中提取数据,辅助办案。数据发现采用了类似的方法——从大量数据中筛选出相关且可操作的数据项。

可能有人会问:有了智能数据发现还需要手动数据发现吗?

个人认为,现阶段大部分的数据发现还需要人工手动干预,而基于机器学习等人工智能技术的利用可以帮助改进数据发现过程,例如自动发现数据中的数据质量问题、法规遵从性问题等,而数据结果还是需要人为决策。



04 数据资产发现,解决哪些问题?

数据资产发现也叫自助式数据探查和分析,从定位上讲,是服务于业务人员,帮助业务人员从数据中获得有价值的信息,这些信息可帮助用户在竞争对手之前发现宝贵的机会,而无需咨询 IT 部门,使得数据分析和使用变得“平民化”。可视化的数据呈现,提高了数据的可操作性,让业务人员能够更快地找到答案。

数据发现为企业提供了一种易于理解、清洗和分析数据的友好方法,使用户可以轻松深入研究变量并提出新的问题和见解。

1. 识别数据应用中的痛点

每个企业的数据管理和应用都会有独特的痛点和问题,例如自多个来源的大量数据、复杂的架构、数据安全和法规遵从性等,所有这些都应该得到解决和持续监控。尽可能多地提前识别这些问题,可以帮助企业在问题升级之前解决问题并确保企业的数据保持安全。

2. 使用多样化的数据源

如果企业可以从多个来源收集和使用数据,那就预示着企业可以从中获得更加深入的见解。但是,值得注意的是,企业需要正确处理和使用数据,确保数据完整性、数据质量和个人隐私保护。数据发现有助于企业从不同数据源中收集、清理相关数据,这些数据可以提供大量可操作的信息。

3. 用企业的数据讲故事

数据发现为业务用户提供了自助式数据分析和探索的能力,以可视化的方式进行数据呈现,形成业务人员更容易理解的故事板。直观、可视化的“数据故事板”可以帮助人们理解信息,以及从中得到有价值信息,帮助用户进行决策。

例如:数据发现通过对企业多渠道中的客户行为、交易和情绪数据的分析和评估,来获取客户的 360 度视图,在客户流失之前进行预警,从而辅助决策人员作出应对策略。



05 数据发现工具,怎么选?

在国外一个数据管理工具评价网站显示,2022年 9个最流行的数据发现工具有:

  • JMP Statistical Discovery
  • Looker
  • Microsoft Power BI
  • Phocas
  • Qlik Sense
  • Spirion
  • Tableau
  • TIBCO Spotfire
  • Atlan

你有没有发现以上数据发现工具其实侧重点并不相同,有侧重数据管理的,也有侧重数据分析的。例如:JMP Statistical Discovery——SAS公司的数据管理产品,是侧重跨数据源数据采集、自助数据准备和自动进行数据清理。而Google Cloud的Looker,微软的Power BI,以及Salesforce的Tableau则更侧重自助式的数据可视化能力。

那么,一个数据发现工具到底都应该包含哪些通用功能,企业选型应重点关注哪些方面呢?通过对以上工具的研究,笔者发现一个完善的数据发现工具,需要具备以下功能:

  • 数据源连接和元数据采集,包括:结构化、半结构化、非结构化等数据源
  • 元数据管理和数据血缘,识别和解析数据的位置、含义等
  • 全文元数据搜索,帮助用户快速定位和查找数据
  • 敏感信息识别、分类和监控,这对于满足合规性要求非常重要
  • 数据准备和提高数据质量的工具
  • 机器学习能力,包括预测分析
  • 内存分析,实现更快的查询响应时间
  • 数据分析和可视化(图表、地图、表格以及其他形式)
  • 版本控制,确保数据的完整性并防止意外数据丢失

除了以上基本功能之外,在数据发现工具中首先要考虑的是数据治理,企业的数据环境中可能有上百套系统,成千名用户在创建数据,企业必须确保这些数据能够自动化的集中式治理。

其次,数据安全和隐私也是需要重点关注的方面,数据发现平台需要提供一定的安全机制,如:用户认证、访问控制、数据脱敏、数据加密等,确保数据安全和合规使用。

参考文献:
https://atlan.com/data-discovery-tools/


延伸阅读👇


延伸阅读《一本书讲透数据治理》


干货直达👇


更多精彩👇

在公众号对话框输入以下关键词
查看更多优质内容!

读书 | 书单 | 干货 | 讲明白 | 神操作 | 手把手
大数据 | 云计算 | 数据库 | Python | 爬虫 | 可视化
AI | 人工智能 | 机器学习 | 深度学习 | NLP
5G | 中台 | 用户画像 数学 | 算法 数字孪生

据统计,99%的大咖都关注了这个公众号
👇
浏览 10
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报