关于数据可视化的方法和工具介绍

俊红的数据分析之路

共 2315字,需浏览 5分钟

 ·

2021-07-31 12:51

这一篇给大家全面介绍下关于数据可视化的方法和常用工具。

1. 数据可视化简介
数据可视化,是指用图形的方式来展现数据,从而更加清晰有效地传递信息,主要方法包括图表类型的选择和图表设计的准则。
随着互联网的广泛应用,我们的工作和生活等各个方面,每时每刻都在产生大量的数据

数据可视化作为一种有效传递信息的手段,被越来越广泛地应用到很多领域,比如说,是淘宝双十一的数据可视化,在一块大屏幕上实时动态展示交易数据。

如果想要让数据发挥更大的价值,那么合理地运用数据可视化的方法和工具就显得特别重要。

2. 数据可视化的图表选择

根据数据分析的实际情况,需要有针对性地选择合适的数据可视化方法。

但是,可视化的图表花样繁多,我们应该如何选择并设计好你的图表呢?

下面这张图源自 http://chart.guide


本文将把它拆分为 8 个部分,逐一进行介绍。

(1) 当你需要对不同的类别进行比较时,有很多种图形可供选择,其中条形图是最常见的,垂直瀑布图适合用来比较并分析各个组成部分的变化情况,词云图适用于大量文本的分析和比较。


(2) 当你想要直观反映关键业绩指标随时间的变化情况时,用柱形图或曲线图是比较好的选择。


(3) 当你需要展示二八定律时,用柏拉图(Pareto)能方便地找出主要因素。


(4) 当你希望展示数据之间的联系或关系时,漏斗图和散点图是比较好的选择。

对于气泡图,我个人觉得可以适当地加以运用,因为她能综合反应出 3 个重要的指标,在一些数据分析场景中,气泡图能有效地传递出重要的信息。

比如说,Hans Rosling 曾经利用动态气泡图,展现了全球人口、收入、健康的动态变化,在网站 http://www.gapminder.org 上也可以找到大量动态气泡图的应用。


(5) 当你关注数据的分布状况时,可以使用直方图或小提琴图。

刚开始看到小提琴图,可能会觉得她比较费解,但当你理解她代表的具体含义之后,就会知道她能传递很多专业的统计信息,包括数据的密度分布、中位数、四分位数等。


(6) 如果你想增强图表的表现力,那么可以增加箭头和标签等图表元素。


(7) 当你只需要突出显示某个单值,可以用放大的粗体文字或图片。


(8) 在进行数据可视化的过程中,应该时刻关注数据可视化的目标,记住这些图表设计的提示:
  • 使用2D图表,不要使用三维立体效果

  • 使用反映真实情况的刻度,避免造成误导

  • 使用单一的 Y 轴,不要使用双轴图表

  • 折线图用角度体现真实的数据变化,不要使用平滑效果

  • 数据序列最多不超过 4 个

  • 条形图按大小排序进行排列

  • 不要使用无意义的颜色

  • 高亮显示重要的图表元素

  • 坐标轴等辅助元素尽量淡化



3. 数据可视化的六种制作方

(一) 将指标值图形化

一个指标值就是一个数据,将数据的大小以图形的方式表现。比如说,用柱形图的高度表现数据大小。

(二) 将指标图形化

一般用与指标含义相近的 icon 图标来表现。

(三) 将指标关系图形化

当存在多个指标时,挖掘指标之间的关系,并将其图形化表达,可提升图表的可视化深度。

(四) 将时间和空间可视化

通过时间的维度来查看指标值的变化情况,一般通过增加时间轴的形式,也就是常见的趋势图。

当图表存在地域信息并且需要突出表现的时候,可用地图将空间可视化,地图作为主背景呈现所有信息点。

(五) 将数据进行概念转换

对数据进行概念转换,可加深用户对数据的感知,常用方法有对比和比喻。

(六) 让图表「动」起来

数据图形化完成后,可结合实际情况,将其变为动态化和可操控性的图表,用户在操控过程中能更好地感知数据的变化过程,提升体验。实现动态化主要有两种方式:交互和动画。

4. 数据可视化的十个准则

(一) 明确数据可视化的目的;
(二) 通过对比来反映问题; 
(三) 提供数据指标的业务背景; 
(四) 通过从总体到部分的形式,展示数据分析报告; 
(五) 联系实际的生产和生活,对数据指标的大小进行可视化; 
(六) 通过明确而全面的标注,尽可能消除误差和歧义; 
(七) 将可视化的图标,同听觉上的描述,进行有机的整合; 
(八) 通过图形化工具,增加信息的可读性和生动性; 
(九) 允许但并非强制,通过表格的形式,呈现数据信息; 
(十) 目标是:让受众思考呈现的数据指标,而非数据的呈现形式。

5. 数据可视化的工具

目前市面上的数据可视化工具多种多样,其中 Excel 作图工具是最常用的

从数据可视化的自动化方面来看,建议使用 Python 编程来实现。

Python 中用于数据可视化的库有很多,比较常见的有: 
  • Matplotlib(强大、复杂)

  • Seaborn(基于Matplotlib、简单)

  • pyecharts(基于Echarts、炫酷)

  • plotnine(移植于R的ggplot2、图形语法)

  • PyQtGraph(交互、高性能)


从数据可视化工具的敏捷性方面来看,建议使用 BI 软件,例如 Tableau、Power BI 等等。

最后的话

有些人打着数据可视化的幌子,片面追求视觉上的花哨,做出来的图表只是为了吸引眼球,这就违背了有效传递信息的目标。

数据可视化的目标,并不是单纯地为了「好看」,而是为了更加有效地传递信息,让人能准确快速地获取有价值的信息,从而更好地解决问题。

点分享
点收藏
点点赞
点在看
浏览 54
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报