6000字我就写了个数据探索分析？-技术圈

大家好，我是宝器！

今天的这篇文章比较肝，是一篇比较贴合实际工作的数分实战案例

全文 6000 多字，可能阅读会花一些时间，但是 绝对物超所值。特别是对于没有项目可以练手的同学来说，建议跟着实操一遍，收获很大！

下面是正文：

这个项目官方给出的背景是这样的：

解读一下，大致意思是：现在有一批已经更换5G套餐的用户数据，数据维度有很多，包括：基础信息、消费行为、超套信息、宽带信息、其他信息，共 46 个用户特征。

目的是 通过这批用户数据去分析什么样的用户更倾向于更换5G套餐，从而进行潜客营销

如果是第一次做分析类项目的同学，可能拿到这个数据的第一印象是：靠，咋这么多特征列？

其实数据一共就 14w 条，5 个用户维度一共 46 个特征，比较正常的数据，实际真正应用的话这个数据量甚至还有点点少，训练出来的模型需要多轮测试才能部署。

ok，背景也说完了，下面开始正文

整体分析

在分析之前需要明确，当前的工作是探索性数据分析（EDA）。探索性数据分析属于数据清洗之前的部分，主要是探索数据，只看数据不操作数据

先来看看数据：

整体数据就这样，一共 14w 条数据，46 个特征

1. 缺失分析

缺失分析应该算是最早应该做的，如果有缺失值，后面的探索 不要忘了考虑缺失 情况

一个 46 个特征，肯定会有缺失值，代码也很简单：

"""查看数据整体缺失情况"""
df_data.isnull().sum()

图很长，放一部分吧：

这个图看的不是很明了，换种方式，我们可以计算每个特征的缺失程度，然后排序一下

代码如下：

"""查看特征的缺失程度"""
missing_series = df_data.isnull().sum()/df_data.shape[0]
missing_df = pd.DataFrame(missing_series).reset_index()
missing_df = missing_df.rename(columns={'index': 'col', 0: 'missing_pct'})
missing_df = missing_df.sort_values('missing_pct', ascending=False).reset_index(drop=True)

效果是这样的：

1.2 缺失分析-看图分析

从图中可以看到样本集中共 14w 条数据，其中：

用户标识维度无数据缺失
用户基础信息维度中星级缺失 6849 条数据、细分市场缺失 691 条数据
消费行为信息维度、超套信息维度中所有特征均分别缺失 89、392 条数据
宽带信息维度中宽带贷款和宽带是否激活特征缺失 101060 条数据，缺失较严重
签约信息维度、套餐信息维度中所有特征均分别缺失 774、6617 条数据
流量饱和度信息维度中所有特征均缺失 9000+ 条数据，需要进一步分析
其他信息特征中，5G流量特征缺失 132559 条数据，缺失非常严重

另外，缺失分析不光是特征分析，还需要 对样本进行缺失分析

如果一个样本在多个特征上都缺失，那默认该样本可用价值比较少，可以直接丢弃

代码如下：

"""查看样本的缺失程度"""
missing_series = df_data.isnull().sum(axis=1)
list_missing_num  = sorted(list(missing_series.values))

绘图如下：

1.3 缺失分析-总结

首先，数据呈现阶段性缺失，可以初步判定同一维度中的多个特征缺失实为同一样本的缺失。

其次，部分样本的特征缺失较多，可以考虑删除此部分样本

2. 类别分析

常见的数据类型一般分为两种：类别型特征和数值型特征

像样本数据中的 细分市场 就属于类别特征，属性包括：校园用户、集团用户等等，对应的 5G流量 就属于数值特征，有具体的数值大小。

pandas 中对于类别和数值特征的区分很简单：

# 查看特征的数值特征有哪些，类别特征有哪些
numerical_fea = list(df_data.select_dtypes(exclude=['object']).columns)
category_fea = list(filter(lambda x: x not in numerical_fea, list(df_data.columns)))

但是，上述代码存在根本上的问题

pandas 在读取数据的时候会自动声明数据类别，导致有部分脱敏后的类别数据会被其认为是数值数据

例如，终端类型、是否异网宽带用户特征，因为数据需要脱敏处理，所以你看到的数据值为：1、2... ，实质上它们都是类别特征，像终端类型的原始数据可能是：华为、小米、苹果这些

这里推荐一种比较取巧的方法：同值过滤法

解释一下：如果一个被 pandas 认定的数值特征中出现不同值的个数超过 10，那么这个特征就是数值特征，否则就是类别特征

上面的 10 你也可以人为调整

代码如下：

"""划分数值型变量中的连续变量和分类变量"""
def get_numerical_serial_fea(data, feas):
    numerical_serial_fea = []
    numerical_noserial_fea = []
    for fea in feas:
        temp = data[fea].nunique()
        # 如果同值个数小于10，则认为是类别型数据
        if temp <= 10:
            numerical_noserial_fea.append(fea)
        else:
            numerical_serial_fea.append(fea)
    return numerical_serial_fea,numerical_noserial_fea

在今天的项目中，这个方法效果很明显：

原本认定的 4 个类别特征，增加到 19 个

3. 同值化分析

同值化就是一个特征中某个属性的占比很高，那么用这个特征去分类极有可能得不出好效果

同值化在类别特征中比较容易出现，代码如下：

"""查看特征中特征的单方差（同值化）性质"""
threshold_const = 0.95

const_list = [x for x in df_data.columns if x!='label']
const_col = []
const_val = []

for col in const_list:
    # value_counts 的最多的一个样本类别的样本数
    max_samples_count = df_data[col].value_counts().iloc[0]
    # 总体非空样本数
    sum_samples_count = df_data[df_data[col].notnull()].shape[0]
    
    # 计算特征中类别最多的样本占比
    const_val.append(max_samples_count/sum_samples_count)
    # 过滤同值化特征
    if max_samples_count/sum_samples_count >= threshold_const:
        const_col.append(col)
        
print('常变量/同值化比例大于{}的特征个数为{}'.format(threshold_const, len(const_col)))

效果如下：

可以发现，同值化比例大于 95% 的有 5 个特征，甚至有一个特征全为同一个值，需要特别注意

单特征深度分析

单特征分析主要是针对类别型特征和数值型特征挨个进行分析

但是用户信息中缺失情况比较一致，处于同一维度的特征也可以同时做对比分析

1. 类别特征分析-整体

先来看整体类别特征的分布情况：

1. 类别特征分析-看图说话

从上图可以得出很多有用的信息，其中：

性别中，男性5G用户开通率略微高于女性
市场中，集团用户更倾向于开通5G
星级中，四星级用户更愿意使用5G
本网宽带用户比异网宽带用户更倾向于使用5G，而且宽带带宽为100的用户占比更高、200次之
宽带、终端捆绑的用户更愿意使用5G
家庭用户比非家庭用户更愿意使用5G
终端类型为1的用户最多，为2的5G用户率最高

另外：

宽带是否激活特征只有唯一值和缺失值
当月是否保号保号用户特征同值化较高

还有：星级、宽带带宽特征个别特征占比较低，可以考虑分箱处理；上述倾向于使用5G的用户特征（例如：细分市场）中类别存在空值，缺失的是否重要？同值化特征是否可以删除？

别急着下结论，都需要进一步分析

1.1 星级特征-分析

上面说过，星级特征需要特别考虑缺失值是否重要

小技巧：将缺失值单独分为一列

代码如下：

"""进一步对上述类别特征进行分析"""
df_data_2 = df_data.copy()
# 星级特征
df_data_2.loc[df_data_2['星级'].isnull(), '星级'] = '空'

"""星级特征对应的5G用户"""
plt.figure(figsize=(13, 5))
# 设置标题
plt.title('不同星级特征对应的5G用户')
sns.countplot(x='星级', hue='label', data=df_data_2)
plt.show()

效果如下：

另外，也可以看看星级用户对应的5G用户具体占比情况

"""星级对应的5G用户占比"""
df_bucket = df_data_2.groupby('星级')
user_5G_trend = pd.DataFrame()

user_5G_trend['total'] = df_bucket['label'].count()
user_5G_trend['5G'] = df_bucket['label'].sum()
user_5G_trend['5G_rate'] = user_5G_trend['5G']/user_5G_trend['total']
user_5G_trend = user_5G_trend.reset_index()
user_5G_trend

绘图如下：

1.1 星级特征-结论

星级 0、1、2、3、4 对应的5G用户占比逐渐增高，星级 5、6、7 用户数较少，但是整体5G用户占比还是高于平均值

操作建议：可以进行分箱，空值对应的5G用户可单独分为一类，或者根据5G用户占比率进行分箱合并

具体的，后期可根据模型的具体预测效果进行选择

1.2 细分市场特征-分析

和星级特征一样，先考虑缺失值，然后在分析

代码类似上一步，直接看图

1.2 细分市场特征-结论

校园用户占比最少，5G开通率最低；集团用户5G用户占比最高

操作建议：空值对应的5G用户 占比极低，分箱会影响其他箱的5G用户占比，所以不建议进行箱体合并，可尝试直接单独当做一箱

具体的，后期可根据模型的具体预测效果进行选择

1.3 宽带带宽&是否激活特征-分析

同样的思路，先考虑缺失值，然后在分析

不同的是，宽带带宽 特征与另一个特征 宽带是否激活 需要综合考虑

1.3 宽带带宽&是否激活特征-结论

宽带带宽特征：

带宽在60以下的特征因为样本数据太少，可以进行合箱
带宽在100以上的因为总体5G用户占比较高，可以进行合箱

操作建议：最终的宽带带宽特征可以分为3箱：<=60、>100、空

宽带是否激活特征：

因为属性只有1，表示宽带已经激活，所以这里大胆预测缺失的数据就是表示宽带没有激活，对应的可以用0表示

1.4 其他类别特征-分析

剩余 6 个特征中 4 个为签约维度特征，2 个为其他维度特征，可以一并进行分析

1.4 其他类别特征-总结

前 4 个签约维度特征中存在缺失数据，任选两个特征分析发现缺失数据的5G用户占比较低

提供如下操作建议：

合并到概率相近的箱中，例如上述特征中的0属性
用众数填充
用同类别用户该特征的众数填充
直接删除样本

后 2 个特征虽然同值化较严重，但是样本少的5G用户占比较高，或许在模型训练中会拿到一个不错的贡献分

暂时不做处理，后面特征工程中尝试通过 lgb 进行特征筛选后在确定

2. 数值特征分析-整体

离散特征中有两个例外的特征需要单独分析：年龄和在网时长

年龄字段虽然是数值型，但是将其进行分箱后模型的性能会大大提升，分析如下：

2.1 年龄特征-分析

计算每个年龄5G用户占比情况，观察是否可以分箱，以及分箱策略

代码如下：

"""
年龄特征分析
计算不同年龄的5G用户分布情况
"""
df_bucket = df_data_2.groupby('年龄')
user_5G_trend = pd.DataFrame()

user_5G_trend['total'] = df_bucket['label'].count()
user_5G_trend['5G'] = df_bucket['label'].sum()
user_5G_trend['5G_rate'] = user_5G_trend['5G']/user_5G_trend['total']
user_5G_trend = user_5G_trend.reset_index()

绘图如下：

2.1 年龄特征-总结

从图中可以发现：

25-50岁之间5G用户整体占比较高，基本在 20% 上方波动
13-25岁的5G用户占比随着年龄呈上升趋势
50岁以上的5G用户占比随着年龄呈下降趋势

基于这个特性，可以将年龄特征进行分箱，大致如下：

13-20、20-25、25-45、45-50、>50

上面分组不绝对，例如对于第1、2组也可以合为一组，3、4组合为一组

具体的分组效果需要根据模型的得分去判断

2.2 在网时长特征-分析

思路同年龄特征，直接统计各自的5G用户占比情况

绘图如下：

2.2 在网时长特征-总结

从图中可以发现：

在网时长为 1 的样本占比最多，但同时5G用户占比率也最低

当在网时长在 2-10 之间时，5G用户占比在 25%-30% 中间波动

当在网时长 >10 时，5G用户占比率高于 30%，并呈现加速上升趋势

其实，分析到这，不难猜出，对应的数字应该代表用户在网年份

具体的操作建议：还是分箱操作 ① 0-1 ② 2-10 ③ >10

具体的分组效果还是需要根据模型的得分去判断，这里不绝对

2.3 数值特征-分析

数值特征的分析比较简单，最常见的是对极大极小值进行过滤，或者设定一个最大值赋给超过该值的所有值

其次是对数据进行无量纲化，使得不同的特征能够保持在一个量纲上，模型训练起来也快一些

直接绘图看特征分布：

操作建议：去极值、标准化，常见的操作手法

总结一下

以上就是在数据探索阶段需要做的事情，常见的探索手法还会对多个特征特征进行联立分析

例如：不同星级的男性和女性5G用户占比是什么样的？不同细分市场不同年龄段的5G用户占比又是什么样的？

很多时候，特征之间的互相融合就是源自于多维度的探索分析

总结一下今天的内容，方便在特征工程部分进行相应的处理

首先很明显能看出：

性别中，男性5G用户开通率略微高于女性
市场中，集团用户更倾向于开通5G
星级中，四星级用户更愿意使用5G
本网宽带用户更倾向于使用5G，而且宽带带宽为100的用户意愿更强
宽带、终端捆绑的用户更愿意使用5G
家庭用户比非家庭用户更愿意使用5G
终端类型为为2的5G用户率最高

更细致一点的：

星级 0、1、2、3、4 对应的5G用户占比逐渐增高，星级 5、6、7 用户数最少，但是5G用户占比率相近

校园用户占比最少，5G开通率最低；集团用户5G开通率最高

带宽在 60 以下的样本数据太少，带宽在100以上的5G用户占比较高

宽带是否激活中属性只有1，表示宽带已经激活

签约维度特征中签约信息为空的5G用户占比较低

是否抵消保号用户和当月是否换机这两个特征虽然同值化较严重，但是样本少的属性5G用户占比较高

·················END·················

6000字我就写了个数据探索分析？

整体分析

1. 缺失分析

1.2 缺失分析-看图分析

1.3 缺失分析-总结

2. 类别分析

3. 同值化分析

单特征深度分析

1. 类别特征分析-整体

1. 类别特征分析-看图说话

1.1 星级特征-分析

1.1 星级特征-结论

1.2 细分市场特征-分析

1.2 细分市场特征-结论

1.3 宽带带宽&是否激活特征-分析

1.3 宽带带宽&是否激活特征-结论

1.4 其他类别特征-分析

1.4 其他类别特征-总结

2. 数值特征分析-整体

2.1 年龄特征-分析

2.1 年龄特征-总结

2.2 在网时长特征-分析

2.2 在网时长特征-总结

2.3 数值特征-分析

总结一下

推荐阅读