【机器学习】机器学习项目流程-技术圈

项目来源：

这是一个机器学习的完整流程，附代码非常全，几乎适合任何监督学习的分类问题，本文提供代码和数据下载。

作者：WillKoehrsen

翻译：DeqianBai(https://github.com/DeqianBai)

这是2018年夏天，一位美国数据科学家在申请工作时的“作业”，完整的英文版作业在:

https://github.com/WillKoehrsen/machine-learning-project-walkthrough/blob/master/hw_assignment.pdf

这是一个受监督的回归机器学习任务：给定一组包含目标（在本例中为分数）的数据，我们希望训练一个可以学习将特征（也称为解释变量）映射到目标的模型。

在训练中，我们希望模型能够学习特征和分数之间的关系，因此我们给出了特征和答案。然后，为了测试模型的学习效果，我们在一个从未见过答案的测试集上进行评估

我们在拿到一个机器学习问题之后，要做的第一件事就是制作出我们的机器学习项目清单。下面给出了一个可供参考的机器学习项目清单，它应该适用于大多数机器学习项目，虽然确切的实现细节可能有所不同，但机器学习项目的一般结构保持相对稳定：

提前设置机器学习管道结构让我们看到每一步是如何流入另一步的。但是，机器学习管道是一个迭代过程，因此我们并不总是以线性方式遵循这些步骤。我们可能会根据管道下游的结果重新审视上一步。例如，

代码部分较长，仅贴代码的目录，完整代码在文末提供下载。

[1] https://github.com/WillKoehrsen/machine-learning-project-walkthrough

[2] https://github.com/DeqianBai/Your-first-machine-learning-Project---End-to-End-in-Python

[3] DeqianBai(https://github.com/DeqianBai)

本文是一个完整的监督学习的机器学习流程，包含：

代码非常完整，可以在平时的机器学习项目中拿来用，只需要改少量代码即可。

推荐阅读
决策树可视化，被惊艳到了！
开发机器学习APP，太简单了
周志华教授：关于深度学习的一点思考
200 道经典机器学习面试题总结
卷积神经网络（CNN）数学原理解析

如有收获，欢迎三连