【数据竞赛】kaggle竞赛宝典-多分类相关指标优化
赛题理解,分析,规划之多分类相关指标优化
这是一个系列篇,后续我们会按照我们第一章中的框架进行更新,因为大家平时都较忙,不会定期更新,如有兴趣欢迎长期关注我们的公众号,如有任何建议可以在评论区留言。
1. kaggle竞赛宝典-竞赛框架篇!
4.1 kaggle竞赛宝典-样本筛选篇!
4.2 kaggle竞赛宝典-样本组织篇!
1. categorization accuracy
1.1 定义
其中,为测试样本的个数,为第个样本的标签,为预测的第个样本的类别。
1.2 案例
What's Cooking? Anomaly Detection Challenges 2015 - Challenge 2 Ghouls, Goblins, and Ghosts... Boo! Cdiscount’s Image Classification Challenge Sentiment Analysis on Movie Reviews
1.3 求解
使用multiclass第对应的损失函数,
表示第个样本标签为的情况,如果标签为则是1,反之为0。则是模型预测样本属于第的概率。
2. MultiLogloss
2.1 定义
其中,为测试样本的个数,为类标签的个数。
2.2 案例
San Francisco Crime Classification Telstra Network Disruptions TalkingData Mobile User Demographics Walmart Recruiting: Trip Type Classification Shelter Animal Outcomes The Nature Conservancy Fisheries Monitoring Two Sigma Connect: Rental Listing Inquiries Personalized Medicine: Redefining Cancer Treatment
2.3 求解
针对准确率问题,目前常采用的损失函数为multiclasslogloss ,其数学形式如下:
直接进行优化即可。
3. MAP(Mean Average Precision )
3.1 定义
其中为用户的个数,为在截止点处的精度(Precision),是预测物品的数量,是给定用户购买物品的数量。如果,则精度定义为0。
3.2 案例
Coupon Purchase Prediction Facebook V: Predicting Check Ins
3.3 求解
使用sigmoid_cross_entropy,注意与其它常用的多分类损失函数的区别。
4. Mean F1
4.1 定义
4.2 案例
Transfer Learning on Stack Exchange Tags
4.3 求解
Top5有一名开源的选手选用的是Mean square Loss进行的优化.
5. Average Jaccard Index
5.1 定义
两个区域和的Jaccard Index可以表示为:
其中TP表示True positive的面积,FP表示false positive的面积,FN表示false negative的面积。
5.2 案例
Dstl Satellite Imagery Feature Detection
5.3 求解
基于Sigmoid的损失函数。
参考文章
损失函数softmax_cross_entropy、binary_cross_entropy、sigmoid_cross_entropy之间的区别与联系:https://blog.csdn.net/sjyttkl/article/details/103958639 https://github.com/nagadomi/kaggle-coupon-purchase-prediction https://github.com/viig99/stackexchange-transfer-learning https://deepsense.io/deep-learning-for-satellite-imagery-via-image-segmentation/ https://arxiv.org/pdf/1505.04597.pdf https://github.com/toshi-k/kaggle-satellite-imagery-feature-detection
往期精彩回顾
本站qq群704220115,加入微信群请扫码:
评论