【数据竞赛】Kaggle知识点:比赛类型介绍
在Kaggle平台上,经常有好多个比赛可供选择。如下图所示,为正在进行比赛的截图。那么对于入门同学(从没参加过一次Kaggle比赛)如何选择一场适合的比赛呢?
本文将对Kaggle平台上的比赛按照类型进行划分,并对每种类型的比赛进行介绍。总有一个比赛适合你,文末还给出了快速上手Kaggle比赛的指南。
比赛类型
在Kaggle平台上比赛按照维度划分为:
按照比赛的形式:比赛可以划分为Getting Started、PlayGround、Research和Featured四类。其中Getting Started是难度最低的比赛,非常适合入门学习,比如TItanic和House Prices。
PlayGround类型的比赛难度稍微高一点,但难度也不会太高,适合针对特定问题进行深度学习。比如Dogs vs. Cats就是典型的图像分类的学习赛。
Research比赛是学术类型的比赛,Featured是商业公司的比赛。这两类比赛在赛题背景和难度上都更难,适合深入学习。需要注意的是,在Kaggle中只有Research和Featured类型的比赛会累计积分和奖牌。
按照比赛阶段:比赛可以划分为One-Stage、Two-Stage和Kernel赛,或者分为非Kernel赛和Kernle赛。非Kernel赛通过选手提交预测结果文件进行打分,Kernel赛需要选手通过Notebook进行预测打分。
需要注意的是,Kernel赛的Notebook提交是有运行时间和联网要求限制的。所以Kernel赛的复杂度会更高一些。在选择一个赛题时,可以根据自身的基础来选择,也可以根据赛题的要求进行选择。
比赛页面
在Kaggle平台上,举办方将每一个比赛都划分为如下的页面。在Notebooks页面中会有参赛选手公开的Notebook,也可以自己新建一个运行。
学习路线
对于入门学习Kaggle的同学来说,在选择好一场比赛之后,如何开始学习呢?这个要跟自身的知识背景出发。
如果你对赛题数据/任务比较熟悉,那么直接可以下载数据集开始建模;反之可以查看赛题的Notebook页面和Discussion页面找到其他选手分享的资源。
然后就可以按照如下流程开始:理解赛题内容、赛题数据、特种工程、构建模型和模型集成,不断迭代提高模型精度。以Kaggle上的Real or Not? NLP with Disaster Tweets为例,这个比赛是一个对推特上推文进行分类的比赛,具体来说是NLP领域中的文本分类比赛。如果你对文本分类有一点了解,那么就可以直接上手做了。
按照文本分类的思路,可以按照如下思路迭代模型:
好的,本文就到这里。希望大家能找到适合自己的比赛,并参与其中学有所成。
往期精彩回顾
获取一折本站知识星球优惠券,复制链接直接打开:
https://t.zsxq.com/yFQV7am
本站qq群1003271085。
加入微信群请扫码进群: