金融科技:数据建模框架

数据科学与人工智能

共 2111字,需浏览 5分钟

 · 2022-01-23

金融科技行业如何开展数据建模工作呢?
我给大家介绍三种数据建模框架,分别是IBM公司的CRISP-DM,SAS公司的SEMMA和我总结的PDFMV。

01

CRISP-DM

IBM公司的CRISP-DM,全称是跨行业数据挖掘标准流程。如下图所示:

这个流程包括这些环节:

  • 1 业务理解:定义业务问题,确定业务目标,制定项目计划。

  • 2 数据理解:梳理需要哪些数据,如何收集,数据探索性分析,数据质量报告。

  • 3 数据准备:数据整理、数据清洗,数据集成,数据再格式化。

  • 4 建模:数据划分,模型选择和构建。

  • 5 评估:从技术和业务角度,评估模型的有效性和稳定性。

  • 6 部署:最终模型上线、部署、监控。
    这个流程是一个闭环系统,给我们建模的启示。

  • 1 正确定义好业务问题。

  • 2 垃圾进、垃圾出,需要重视数据的质量。

  • 3 模型的迭代和优化过程,模型构建好后,不是一劳永逸的,而是需要监控和持续优化的。通过分析模型效果偏差后,确定模型优化路径。

02

SEMMA

SAS公司的SEMMA,分别代码Sample(数据采样),Explore(数据探索),Modify(数据调整),Model(建模),Assess(评估)这5个核心环节。如下图所示:

每个环节关注的核心内容。

  • 1 数据采样:一要正确反映业务分析需求,二要考虑数据的规模和维度。

  • 2 数据探索:深入理解数据的过程,利用统计学和数据可视化技术。

  • 3 数据调整:数据转换和再格式化。

  • 4 建模:模型设计和构建。

  • 5 评估:模型评估和调优

03

PDFMV

我总结的PDFMV,它是Problem-Data-Feature-Model-Value五个英文单词的首字母组合而成,是以问题为导向,数据为驱动,利用特征和模型学习知识和模式以创造价值的系统化过程

这个框架,包括这些环节:

  • 1 Problem(问题):任何一个数据类型相关的项目都要从有价值的问题出发。因此,我们一定要定义好问题,定义清楚问题,需要我们使用“底层思维”,也就是那“万变不离其宗”的原则。在定义问题的时候,我们可以从问题的为什么、是什么、怎么样三个层次来深入剖析所面临的问题和要解决的问题。

  • 2 Data(数据):不管是分析,还是建模,我们的原料是数据。原料好不好,决定了我们最终结果的上限。因此,在数据阶段,我们需要重视数据的源头、数据的聚集、数据的质量、数据的探索、数据的理解、数据的清洗、数据的转换等一系列与数据相关的工作。若是以做菜打比方,我们要知道如何去找菜,选菜,评菜、洗菜、切菜、配菜等基本而重要的操作,这也是一般厨师和高级厨师差异。

  • 3 Feature(特征):所谓特征,就是从各个维度或者角度来描述一个问题或者一个对象。关于特征这块,我们可以利用领域知识、先验知识、数据探索的知识,先全方位地做好特征升维。换句话说,就是让自己做到能够更全面地看待问题。在开展分析和挖掘的过程中,通过一些方法去选择对目标有作用,并且避免特征之间的冗余,以实现特征的降维。总之,特征这块,一要学会多角度看问题,二要做好特征升维和降维工作。

  • 4 Model(模型):模型阶段,就是要去找到一个适配当下业务问题的模型,一来能够从训练集中学习到模式,并且较好地泛化到测试集或者时间外样本验证集,二来让模型尽量简洁,并且具有可解释性。在做数据建模的时候,需要妥善地处理一些与模型相关的关键问题,罗列如下:1)数据集如何划分;2)模型如何选择;3)超参数如何调整;4)模型如何集成和融合;5)模型的解释性和准确性如何平衡;6)模型的稳健性和鲁棒性如何衡量等。

  • 5 Value(价值):在问题侧的时候,我就说了问题要始于价值。同样,在终点的时候,我们的结果还是要回归于价值。以“底层思维”——如何盈利?回答价值,我们需要客观地分析和量化所做数据项目是否发挥了这些积极作用。1)是否有降低成本的功效;2)是否有增加收入的功效;3)是否有提升效率的功效;4)是否有控制风险的功效。而3)和4)最终还是回归于与1)或者2)。因此,我们需要重视每个数据项目的价值,有没有价值,有多大价值,价值是否具有持续性。

PDFMV框架是我做数据工作和数据项目的方法论,它可以让我全面而系统地认识和落实一个项目。好比中医看病的“望闻问切”,给我做数据项目指明了方向,并且有始有终。

把一个数据项目做好,并非易事。但是,掌握正确的思维和方法,可以让我们成事的概率更高。

关于这三种建模框架,你有什么想跟我说的,请添加我微信,一起交流。

伙伴们所在公司若有金融科技行业数据科学岗位的招聘,请引荐给我,谢谢。


我是陆勤,在金融科技行业从事数据科学工作,也是一名终身学习者。我工作过的内容主要包括数据清洗和准备、风控评分模型、数字营销模型、风控策略分析、数据建模环境构建和维护等。我可以提供智能风控和数字营销的咨询与服务。欢迎你添加我微信,一起讨论金融科技的数据科学和数据人才。

浏览 69
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报