AI预测世界杯比赛结果,惊掉下巴!
Python绿色通道
共 1320字,需浏览 3分钟
· 2022-11-29
↑ 关注 + 星标 ,每天学Python新技能
↑ 关注 + 星标 ,每天学Python新技能
后台回复【大礼包】送你Python自学大礼包
后台回复【大礼包】送你Python自学大礼包
哈喽,大家好。
今天看到Kaggle
上有一个预测世界杯比赛结果的项目,截至目前 4 场比赛预测结果全中。
今天把源码研究了一下,做了中文注释,给大家分享下。
文末有源码和数据集的获取方式。
提醒大家,本文只做学习交流使用,不做决策参考,更不要盲目赌球。
1. 获取数据集
数据集使用 1872-2022年国际足球比赛数据和FIFA
1992-2022年球队排名数据。
虽然有数据集很大,但作者只用了 2018-2022年的数据作为训练数据。
df = pd.read_csv("./kaggle/input/international-football-results-from-1872-to-2017/results.csv")
df = df[(df["date"] >= "2018-8-1")].reset_index(drop=True)
2. 特征工程
选取的特征要能够较好地反映预测结果,如:
世界杯球队的平均进球数 球队最近5场比赛的平均进球数 世界杯球队的平均犯规数 球队最近5场比赛的平均犯规数 球队在世界杯中 FIFA 平均排名 球队在最近5场比赛中 FIFA 平均排名 FIFA积分 最近5场FIFA积分 比赛得分 最近5场比赛积分 Mean game points by rank faced at the Cycle. Mean game points by rank faced at last 5 games.
通过观察这些特征的小提琴图
,筛选对预测结果又很强区分的特征。
对于值比较小的特征,可以尝试用箱型图
观察。
最终生成的特征为:
最终特征如下:
rank_dif goals_dif goals_dif_l5 goals_suf_dif goals_suf_dif_l5 dif_rank_agst dif_rank_agst_l5 goals_per_ranking_dif dif_points_rank dif_points_rank_l5 is_friendly
3. 建模
作者选择了随机森林
和GradientBoosting
模型进行训练,并对比他们的 AUC
。
最终选取GradientBoosting
作为预测模型。
4. 预测
预测需要获取 2022 世界杯比赛数据。
作者通过爬取维基百科解析出比赛数据,考虑到国内很多朋友无法访问维基百科。源代码中我已经将比赛数据放在本地文件中。
kaggle地址:https://www.kaggle.com/code/sslp23/predicting-fifa-2022-world-cup-with-ml/notebook
在看
评论
CXL:破解AI时代“内存墙”新途径
AI大模型的快速发展推动“算力”和“存力”需求快速增长,“内存墙”问题由来已久,在 AI 时代表现的愈发明显,“算力”和“运力”之间的差距越来越大。Transformer 类的模型参数的数量呈现指数增长,每两年增加 410 倍,而 GPU 内存仅以每两年 2 倍的速度扩展。1、AI时代“内存墙”问题
架构师技术联盟
0
OpenAI的Sora竟然造假:生成的AI大片只有1%的AI,剩下的99%是人工!
点蓝色字关注“机器学习算法工程师”设为星标,干货直达!啊?Sora火爆短片《气球人》,也“造假”了???背后艺术家团队的最新揭秘,可谓一石激起千层浪:原来,视频画面并非完全由AI生成,其中有大量视觉效果需要人类后期实现。be like:这下网友不干了,合着大家伙儿跟OpenAI玩真心,OpenAI背
机器学习算法工程师
1
15种时间序列预测方法总结(包含多种方法代码实现)
向AI转型的程序员都关注了这个号👇👇👇在这篇文章中,我们将深入探讨时间序列预测的基本概念和方法。我们将首先介绍单元预测和多元预测的概念,然后详细介绍各种深度学习和传统机器学习方法如何应用于时间序列预测,包括循环神经网络(RNN)、一维卷积神经网络(1D-CNN)、Transformer、自回归模型(
机器学习AI算法工程
0
聊一聊我最常关注的9个计算机视觉、自动驾驶、AI方向高质量圈子
随着计算机视觉(2D/3D)、SLAM、自动驾驶、AI技术的快速迭代更新,可落地的技术也成为人们争先学习的重点。这使得从业者对于最前沿技术的获取能力变得至关重要。微信公众号便是一个非常有效的前沿信息分享平台。这里给大家推荐9个最常打开的计算机视觉、自动驾驶、SLAM、机器学习和AI方向的优质公众号平
机器学习初学者
0
聊一聊我最关注的9个CV、SLAM、自动驾驶和AI圈子!
随着计算机视觉(2D/3D)、SLAM、自动驾驶、AI技术的快速迭代更新,可落地的技术也成为人们争先学习的重点。这使得从业者对于最前沿技术的获取能力变得至关重要。微信公众号便是一个非常有效的前沿信息分享平台。这里给大家推荐9个最常打开的计算机视觉、自动驾驶、SLAM、机器学习和AI方向的优质公众号平
3D视觉工坊
0
AI数据中心网络架构需求:400/800G光模块
随着AI技术和相关应用的不断发展,大模型、大数据和AI计算能力在AI发展中的重要性日益凸显。大模型和数据集构成AI研究的软件基础,而AI算力是关键的基础设施。在本文中,我们将探讨AI发展对数据中心网络架构的影响。下载链接:AI数据中心网络架构需求:400/800G光模块Fat-Tree数据中心网络架
架构师技术联盟
0
AI论文写作工具和生成器(一)
随着人工智能和大模型的迅猛发展,AI对研究人员和学生提供了极大的写作便利。本文将介绍市面上常用的AI论文写作工具,帮助你提高论文写作效率并遵循学术道德。请仅将AI论文生成器视为辅助参考手段,切勿直接挪用全文。XPaper AlXPaper AI是由点击式创作工具晓语台推出的一款论文写作生成平台,只需
IQ前端
0
奇域AI,最懂新中式美学的AI绘画神器
「奇域AI」是一款非常适合驾驭新中式审美的AI绘画工具。作为国内首个主打新中式插画的AI绘画产品,它提供了上百种新中式美学风格模型,包括新中式插画、笔墨水彩、新铅油画等,为用户提供了丰富的选择。这款工具在「网页版」和「小程序」上都可以使用,只需输入你想要的画面,就能生成出符合新中式审美的作品。奇域A
IQ前端
0