画图不装逼,和咸鱼有什么区别,风控中两个看异常分布的图

AI入门学习

共 1849字,需浏览 4分钟

 ·

2022-01-26 20:14

5276b58446dde581be5e87443bcb4aee.webp今天放假了回家过年了,分享两个看异常分布的图,很好看,也很实用。不会用或者不会画的,随时私聊我。毕竟现在过年也没啥事。

一、箱线图箱盒图(也称盒图,箱线图等)是在1977年由美国统计学家John Tukey发明,分析数据需要为定量数据。通过箱盒图,可以直观的探索数据特征。箱盒图共有两个用途:1)直观地识别数据中异常值(离群点);2)直观地判断数据离散分布情况,了解数据分布状态。3c04c55cc0549229e341b0979ebf8eb0.webp箱盒图共由五个数值点构成,下边缘,25%分位数(Q1),中位数,75%分位数(Q3),上边缘。其中:1)中横线 = 中位数2)下边缘 = Q1 – 1.5 IQR  其中:IQR=75%分位数(Q3)-25%分位数(Q1)3)上边缘 = Q3 + 1.5 IQR特别说明:箱盒图里面的上边缘值并非最大值,下边缘值也不是最小值。如果数据有存在离群点即异常值,他们超出最大或者最小观察值,此时将离群点以“圆点”形式进行展示。

#安装与加载包install.packages('ggplot2')library(ggplot2)#抽样部分数据dsmall = diamonds[sample(nrow(diamonds),5000),]#比较基础的图形ggplot(dsmall,aes(x=color,y=price,fill=color))+geom_boxplot()+scale_fill_manual(values=c('blue','cyan''yellow''orange''red''Cyan1''DeepPink1'))+facet_grid(.~clarity )

3511bcc93180bb54661bb1081f16259e.webp
ggplot(mpg,aes(x=trans,y=displ,fill=trans))+theme_bw()+geom_boxplot()+theme(plot.title  =element_text(size=20,face="bold",color="red", hjust=0.5,vjust=0.5,lineheight=0.01,family="myFont"),              #axis.title.x=element_text(size=12,face="bold",color="black",hjust=0.5),                  axis.title.y=element_text(size=12,face="bold",color="black",hjust=0.5),                  #axis.text.x =element_text(size=08,face="plain",color="black",angle=90,vjust=0.5,lineheight=0.01,family="myFont"),                   axis.text.y =element_text(size=08,face="plain",color="black",family="myFont"),                  panel.grid=element_blank(),                  panel.background = element_blank(),      legend.position='none')


5276b58446dde581be5e87443bcb4aee.webp业务中的一些图,不同类目的商品价格,不同城市的消费水平等等,基本上能够一目了然的发现问题。是一个既实用又装逼的图,大家可以试试。5469a78e1904591c50962378752cd024.webp
38e7b233f4019dce4993bd4fd562325f.webp



二、密度图密度图特别适合对比黑白样本同样的特征的分布问题
qplot(carat,data = dsmall,geom = c('density'),fill = cut,colour = cut)
28398ba1cf75125defa4f89f39205d15.webp
qplot(depth,data = dsmall,geom = c('density'),fill = cut,colour = cut,alpha = I(2/10))
11d334489c790d66b9518e96ea1366a4.webp
qplot(depth,data = dsmall,geom = c('density'),fill = cut,colour = cut,alpha = I(2/10))
d9e84261b49476fa5fcca272b8f7aad1.webp
业务中的一些数据对比,为黑白样本同一个特征的分布对比,可以看到有比较大的不同68ed3b151a8b5dba4c2a8d2a705cc526.webp
a9d6f08956a6f22ff5741c2d3938775f.webp
希望对大家有帮助,来都来了,点个在看再走呗
长按关注公众号           长按加作者好友      
浏览 39
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报