【数据竞赛】kaggle竞赛宝典-多分类相关指标优化
机器学习初学者
共 2243字,需浏览 5分钟
· 2021-03-03
赛题理解,分析,规划之多分类相关指标优化
这是一个系列篇,后续我们会按照我们第一章中的框架进行更新,因为大家平时都较忙,不会定期更新,如有兴趣欢迎长期关注我们的公众号,如有任何建议可以在评论区留言。
1. kaggle竞赛宝典-竞赛框架篇!
4.1 kaggle竞赛宝典-样本筛选篇!
4.2 kaggle竞赛宝典-样本组织篇!
1. categorization accuracy
1.1 定义
其中,为测试样本的个数,为第个样本的标签,为预测的第个样本的类别。
1.2 案例
What's Cooking? Anomaly Detection Challenges 2015 - Challenge 2 Ghouls, Goblins, and Ghosts... Boo! Cdiscount’s Image Classification Challenge Sentiment Analysis on Movie Reviews
1.3 求解
使用multiclass第对应的损失函数,
表示第个样本标签为的情况,如果标签为则是1,反之为0。则是模型预测样本属于第的概率。
2. MultiLogloss
2.1 定义
其中,为测试样本的个数,为类标签的个数。
2.2 案例
San Francisco Crime Classification Telstra Network Disruptions TalkingData Mobile User Demographics Walmart Recruiting: Trip Type Classification Shelter Animal Outcomes The Nature Conservancy Fisheries Monitoring Two Sigma Connect: Rental Listing Inquiries Personalized Medicine: Redefining Cancer Treatment
2.3 求解
针对准确率问题,目前常采用的损失函数为multiclasslogloss ,其数学形式如下:
直接进行优化即可。
3. MAP(Mean Average Precision )
3.1 定义
其中为用户的个数,为在截止点处的精度(Precision),是预测物品的数量,是给定用户购买物品的数量。如果,则精度定义为0。
3.2 案例
Coupon Purchase Prediction Facebook V: Predicting Check Ins
3.3 求解
使用sigmoid_cross_entropy,注意与其它常用的多分类损失函数的区别。
4. Mean F1
4.1 定义
4.2 案例
Transfer Learning on Stack Exchange Tags
4.3 求解
Top5有一名开源的选手选用的是Mean square Loss进行的优化.
5. Average Jaccard Index
5.1 定义
两个区域和的Jaccard Index可以表示为:
其中TP表示True positive的面积,FP表示false positive的面积,FN表示false negative的面积。
5.2 案例
Dstl Satellite Imagery Feature Detection
5.3 求解
基于Sigmoid的损失函数。
参考文章
损失函数softmax_cross_entropy、binary_cross_entropy、sigmoid_cross_entropy之间的区别与联系:https://blog.csdn.net/sjyttkl/article/details/103958639 https://github.com/nagadomi/kaggle-coupon-purchase-prediction https://github.com/viig99/stackexchange-transfer-learning https://deepsense.io/deep-learning-for-satellite-imagery-via-image-segmentation/ https://arxiv.org/pdf/1505.04597.pdf https://github.com/toshi-k/kaggle-satellite-imagery-feature-detection
往期精彩回顾
本站qq群704220115,加入微信群请扫码:
评论
管理世界2024 | 使用管理层讨论与分析测量「企业人工智能指标」
Tips: 公众号推送后内容只能更改一次,且只能改20字符。如果内容出问题,或者想更新内容, 只能重复推送。为了更好的阅读体验,建议阅读本文博客版, 链接地址 https://textdata.cn/blog/2024-04-19-ai-improve-firm-productivity/
大邓和他的Python
0
文本嵌入、文本分类和语义搜索
在实践中使用大型语言模型(LLM)中,RAG 的一个关键部分是使用文本嵌入从知识库中自动检索相关信息。在这里,我将更深入地讨论文本嵌入,并分享两个简单(但功能强大)的应用:文本分类和语义搜索。ChatGPT 吸引了全世界对人工智能及其潜力的想象。ChatGPT 的聊天界面是这一影响的关键因素,它使人
大邓和他的Python
0
接口响应慢?那是你没用 CompletableFuture 来优化!
来源:blog.csdn.net/qq_43372633/article/details/130814200👉 欢迎加入小哈的星球 ,你将获得: 专属的项目实战 / Java 学习路线 / 一对一提问 / 学习打卡 / 赠书福利全栈前后端分离博客项目 2.0
小哈学Java
3
21.3K star!推荐一款可视化自动化测试/爬虫/数据采集神器!功能免费且强大!
【温馨提示】由于公众号更改了推送规则,不再按照时间顺序排列,如果不想错过测试开发技术精心准备的的干货文章,请将测试开发技术设为“星标☆”,看完文章在文尾处点亮“在看”!大家好,我是狂师!在大数据时代,信息的获取与分析变得尤为重要。对于开发者、数据分析师乃至非技术人员来说,能够高效地采集网络数据并进行
测试开发技术
4
小美播报|3月IPTV数据排行榜发布!
小美播报3月IPTV数据排行榜:《与凤行》登顶连续剧榜榜首拥有4.05亿家庭用户的中国IPTV平台已经成为国内主流视听平台,IPTV平台数据对视听产业各环节都具有重要意义。截至2024年4月,全国已有29个省级IPTV加入“看中国”,覆盖全国超2.25亿户家庭、辐射近7亿人。点击查看详情湖南广电与马
流媒体网
0
面试官:MySQL 上亿大表,如何深度优化?
来源:cnblogs.com/YangJiaXin/p/10828244.html背景分析测试实施索引优化后delete大表优化为小批量删除总结前段时间刚入职一家公司,就遇上这事!背景XX实例(一主一从)xxx告警中每天凌晨在报SLA报警,该报警的意思是存在一定的主从延迟(若在此时发生主从切换,需要
好好学java
0
Excel 黑科技:轻松优化工作薄性能
随着时间的推移,大型工作表可能会收集不必要的格式和元数据,从而降低性能。当数据被删除但基础格式未被删除时,可能会发生这种情况。Excel 现在可以自动检测性能问题并提出解决方法。您还可以随时手动运行检查性能命令来识别和解决性能问题。当我们打开工作簿时,Excel 会自动检查具有不必要格式的单元格。如
PowerBI战友联盟
6
6大类最新AI工具,共计39个分类梳理!
你好,我是郭震俗话说,工欲善其事必先利其器,用好AI工具一定事半功倍!这也是AI技术革命带给我们最能感知到的地方之一。这篇文章总结了6大类AI工具,分别包括:问答,图像,视频,AI编程,AI提示词和AI大模型,一共梳理挑选了共计39个AI工具,其中很多都是开源!文末还包括完整思维导图,大家记得收藏这
Python与算法社区
10