自助分析平台是构建在大数据平台之上的,依托于大数据平台的数据研发能力,通过统一的数据服务,实现对数据查询、分析的统一管理,为企业业务分析提供高效的数据决策支持,同时也避免数据工程师陷入繁杂的提数需求中。自助分析平台是有计算机基础的业务人员能够快速上手的前端产品,既要有大数据的处理性能,有需要有简单好用的可视化分析能力,只有让业务人员能够快速掌握使用方法,和公司的业务结合起来,自助分析平台才有价值。其实,一直以来,各大公司的数据分析平台都只有一个目标——干掉Excel。二、自助分析平台该有哪些模块
上面已经介绍了,自助分析平台是用来查询数据,探索数据的,需要具备Excel已有的功能,还要比Excel做的更好。自助分析平台要能够支持多种数据源、不同数据类型文件的接入,能够让数据工程师和业务人员快速的把数据导入到自助分析平台中。需要支持传统的关系型数据库、Hive、文件导入(Excel、CSV、TXT等)。能够对导入的数据进行快速查询、过滤、聚合、排序、关联等动态操作。比如业务人员已经有一些用户基本信息,它能够通过导入用户名,通过用户名关联到对应的用户分析数据。并能够对不同类型的用户进行分组聚合操作。以上所有的操作需要实现拖拽式,不需要让业务人员写一行代码。需要支持常用的可视化图形,如饼状图、环图、同轴曲线图、柱状图、散点图等,用户需要绑定自己导入或者通过平台清洗好的数据,既可以快速的生产对应的分析图表,制作可视化报告。自助分析平台是对公司所有的业务人员使用的,需要有对应的权限管控。比如A用户制作的数据图表,B用户是不能够查看的,只有A赋权给B后才能查看。自助分析平台中的数据也要进行权限管控,比如敏感数据不能开放所有用户,下载数据需要有流程审批等等。数据分析查询要快、自助分析要快、可视化要快。很多自助分析平台最终变成了数据下载平台,其中很大一部分原因就是不够快,虽说大数据了比Excel快多了,但是实际业务探索中,很多时候数据量就是百万以内的,要是还没有Excel快的话,人家为什么要用你的平台呢?所以,不管是数据量大,还是数据量小,都要快!在技术上是否要考虑大数据量和中小数据量使用不能的查询计算引擎呢?三、自助分析平台架构
对于超大数据量的复杂查询分析,我们可以使用Spark提交任务的方式来实现自助分析。对于中小数据量的数据我们使用MPP数据库实现快速查询。我们可以使用echarts支撑多种类型图表展示,或者使用superset等开源自助分析项目进行展示。为做到相互隔离和数据安全,后台管控系统通过条件限制控制数据的授权,对手机号、身份证号、邮箱等敏感信息管控端采用加密算法防止数据泄露。
四、总结
实际中业务人员和IT团队对于自助分析平台的搭建都有自己的想法,也想通过数据来给公司去做一些事情,所以在建立自助分析平台时,可以和业务人员不断的沟通,先定一些主题数据,做成果展示,和业务人员以及领导分享,让其参与评价和建议,不断优化和改善,当相关人员都有参与感时,自助分析平台才会持久发展。
最后,还是要提醒一下,自助分析平台的目的是“干掉Excel”,让所有的分析结果存储在线上,千万不要让其沦为数据下载平台。