如何正确拆分数据集？常见的三种方法总结-技术圈

来源：DeepHub IMBA
本文约1000字，建议阅读5分钟
本文中整理出一些常见的数据拆分策略。

将数据集分解为训练集，可以帮助我们了解模型，这对于模型如何推广到新的看不见数据非常重要。如果模型过度拟合可能无法很好地概括新的看不见的数据。因此也无法做出良好的预测。

拥有适当的验证策略是成功创建良好预测，使用AI模型的业务价值的第一步，本文中就整理出一些常见的数据拆分策略。

简单的训练、测试拆分

将数据集分为训练和验证2个部分，并以80％的训练和20％的验证。可以使用Scikit的随机采样来执行此操作。

首先需要固定随机种子，否则无法比较获得相同的数据拆分，在调试时无法获得结果的复现。如果数据集很小，则不能保证验证拆分可以与训练拆分不相关。如果数据不平衡，也无法获得相同的拆分比例。

所以简单的拆分只能帮助我们开发和调试，真正的训练还不够完善，所以下面这些拆分方法可以帮助u我们结束这些问题。

将数据集拆分为k个分区。在下面的图像中，数据集分为5个分区。

选择一个分区作为验证数据集，而其他分区则是训练数据集。这样将在每组不同的分区上训练模型。

最后，将最终获得K个不同的模型，后面推理预测时使用集成的方法将这些模型一同使用。

K通常设置为[3,5,7,10,20]

如果要检查模型性能低偏差，则使用较高的K [20]。如果要构建用于变量选择的模型，则使用低k [3,5]，模型将具有较低的方差。

优点:

问题:

可以保留每折中不同类之间的比率。如果数据集不平衡，例如Class1有10个示例，并且Class2有100个示例。Stratified-kFold创建的每个折中分类的比率都与原始数据集相同

这个想法类似于K折的交叉验证，但是每个折叠的比率与原始数据集相同。

每种分折中都可以保留类之间的初始比率。如果您的数据集很大，K折的交叉验证也可能会保留比例，但是这个是随机的，而Stratified-kFold是确定的，并且可以用于小数据集。

Bootstrap和Subsampling类似于K-Fold交叉验证，但它们没有固定的折。它从数据集中随机选取一些数据，并使用其他数据作为验证并重复n次。

Bootstrap=交替抽样，这个我们在以前的文章中有详细的介绍。

什么时候使用他呢？bootstrap和Subsamlping只能在评估度量误差的标准误差较大的情况下使用。这可能是由于数据集中的异常值造成的。

通常在机器学习中，使用k折交叉验证作为开始，如果数据集不平衡则使用Stratified-kFold，如果异常值较多可以使用Bootstrap或者其他方法进行数据分折改进。

编辑：于腾凯