【数据竞赛】CCF乘用车细分市场销量预测竞赛总结

机器学习初学者

共 2662字,需浏览 6分钟

 ·

2022-01-19 16:21

  • 题目:乘用车细分市场销量预测
  • 类型:时序回归

https://datafountain.cn/competitions/352/

赛题背景

近几年来,国内汽车市场由增量市场逐步进入存量市场阶段,2018年整体市场销量首次同比下降。在市场整体趋势逐步改变的环境下,消费者购车决策的过程也正在从线下向线上转移,我们希望能在销量数据自身趋势规律的基础上,找到消费者在互联网上的行为数据与销量之间的相关性,为汽车行业带来更准确有效的销量趋势预测。

赛题任务

本赛题需要参赛队伍根据给出的60款车型在22个细分市场(省份)的销量连续24个月(从2016年1月至2018年12月)的销量数据,建立销量预测模型;基于该模型预测同一款车型和相同细分市场在接下来一个季度连续4个月份的销量;

除销量数据外,还提供同时期的用户互联网行为统计数据,包括:各细分市场每个车型名称的互联网搜索量数据;主流汽车垂直媒体用户活跃数据等。参赛队伍可同时使用这些非销量数据用于建模。

赛题数据

历史销量数据包含60个车型在22个省份,从2016年1月至2017年12月的销量。参赛队伍需要预测接下来4个月(2018年1月至2018年4月),这60个车型在22个省份的销量;参赛参赛队伍需自行划分训练集数据进行建模。

评分标准

采用NRMSE(归一化均方根误差)的均值作为评估指标。首先单独计算每个车型在每个细分市场(省份)的NRMSE,再计算所有NRMSE的均值。

宝可梦训练团队

本方案先对数据进行了探索性分析,去除掉与销售量变化趋势关系不大的"搜索量"、"对车型相关新闻文章的评论数量"、"对车型的评价数量"等用处不大的特征。

在其中的一个模型,对销售量进行log1p变换,这样可以使销量数据在转换后基本服从一个正态分布,能够提升一定的效果;考虑到春节、农历月份的影响,本方案做了相关标示。

在做特征工程方面,构造了滑窗。平移,趋势,统计等方面的特征。在总体策略上,因为要预测连续四个月的销量,我本方案的策略是一个月一个月的预测,首先预测1月份的结果。然后将1月份的预测结果合并到训练集,再预测2 月份结果,依次类准。

在模型融合方面,我一共使用了3个模型,每个模型的特征组合不同,进行融合后有一定提升效果。

数据分析

不同车型、不同省份在不同月份的点,销量差距还是很大的,但也不排除是脏数的可能。

销量与车型搜索量、相关新闻回复量、评价数量分析的变化趋势并没有太大的规律性,所以我在训练时,没有要这些特征。

  • 销量数据分析
  • 销量销量趋势分析
  • 销量与车型的关系

特征工程

模型1

  • 是否春节特征
  • 车型(model)、车身类型(bodyIype)、省份分别与年份进行分组提作,求得销量均值
  • 距离2015年12月的月数间隔特征
  • 车型和省份的组合特征
  • 车型、省份和间隔月份 mt 的组合特征
  • 设置不同月份数据的权重值特征
  • 同车型同省份上一个月的销量

模型2

  • 是否春节特征。
  • 农历月份
  • 2017年同车型同省份销量之和同比 2016年的倍数
  • 距离 2015年12月的月数间隔特征mt
  • 车型和省份的合特征
  • 车型、省份和间隔月份 mt 的组合特征
  • 同车型同省份前面第1到第 13个月的销量
  • 同车型同省份前面第1个月与第 13个月的比值
  • 同车型同省份前面第1个月与第13个月的差值再验以第13个月的值
  • 同车型同省份前面第1个月与第2个月的比值和差值。
  • 同车型同省份前面第 2个月与第3个月的比值和差事
  • 滑窗特征。分别计算同车型同省份前面3个月和6 个月的均值、标准差
  • 滑窗特征。分别计算同 bodyType 同省份前面3个月和6个月的均值、标准差
  • 滑窗特征。分别计算同省份前面3个月和6个月的均值、标准差
  • 滑商特征。分别计算同bodyType 前面3个月和6 个月的均值、标准差

模型3

  • 距离2015年 12月的月数间隔特征 mt
  • 车型和省份的组合特征
  • 车型、省份和间隔月份 mt 的组合特征
  • 相同车型、省份前16个月每个月的销量
  • 比前一年的增长率
  • 每个省份、每个月的车型上一年同月份销量均值和最小值。
  • 前面的第3、4、15、16个月同车型的销量均值。并求;前面第15月均值与前面第3个月均值之差与前面第15 个月均值的商;前面第 16月均值与前面第4个月均值之差与前面第16个月均值的商
  • 同车型同省份前面第1、2、11、12个月销量之和
  • 同车型同省份前面第1、2、3个月销量之和。(11)同车型同省份前面第1、12个月销量之和

秋名山车神团队

特征工程

  • 不同省份 & 不同车型构建不同销量
  • 基于特征重要性、均值和相关系数筛选特征

模型选择

对比XGBoost、LightGBM、CatBoost、LSTM、CNN和Prophet模型,最后选择LightGBM。

诗人藏夜里团队

整体方案

  • 从实际业务场景出发挖掘有效特征,采用机器学习模型逐月预测
  • 结合前沿神经网络研究成果采用神经网络模型分车型建模预测,最终对不同预测结果分月按不同比例加权验合

特征工程

将所提取的特征归为以下几类:同比、环比、历史信息、编码、差分差比、趋势、节假日、其它。

挣钱买地球团队

本赛题的最为难解决的难点在于验证集的线上线下不一致的问题,我们放弃了验证集。

我们会拿预测出来的每个月的总销量去跟我们猜测的数据去比较,如果预测出来的数据不是特别高,并且跟猜测的数据接近的话,我们会尝试提交,往往效果都很不错。

核平精英团队

特征工程

要仔细考虑教据的周期性与趋势性,可分为环比趋势及同比趋势:

  • 环比方面,主要体现的为该类车在近几个月内销量的情况
  • 同比方面,主要体现的为该类车当年与去年相比的情况,在这之间也体现了乘用车销量的年周期性,
  • 对于周期性,将其作为结果评估的依据,对本题所要预测的1-4月,可以明显的看出其每年的销量都呈现1月高峰、2月低谷、3和4月有所改善目两月近平持平的趋势,若模型预测出的教据分布不是如此即需调整。


后处理

随比赛进行,多次提交过结果后可以猜测,所要预测的18年 1-4月的销量是偏低的,这时就可以对预测结果乘一个小于1的因子进行调整。

往期精彩回顾




浏览 25
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报