谷歌AI一分之差痛失IMO金牌!19秒做一题碾压人类选手,几何AI超进化震撼评委
新智元
共 6745字,需浏览 14分钟
·
2024-07-26 11:22
新智元报道
新智元报道
【新智元导读】就在刚刚,谷歌DeepMind最新的数学模型捧得了IMO奥数银牌!它不仅以满分成绩做出了6道题中的4道,距离金牌只有1分之差,而且在第4题上只用了19秒,解题质量和速度惊呆了评分的人类评委。
AI的数学推理能力,震惊评分教授
程序能够提出这样一个非显而易见的解法,实在令人印象深刻,远超出我对当前技术水平的预期。
AlphaProof
AlphaGeometry 2
AI的解题过程
值得一提的是,这些问题首先会被人工翻译成正式的数学语言,然后才会投给AI。
P1
P2
P4
P6
能做奥数题,但能分清9.11和9.9谁大吗?
AlphaProof和AlphaGeometry 2,是在形式化证明和特定领域的符号引擎上完成训练。在某种程度上,它们在解决专业的奥林匹克竞赛问题更出色,即使它们基于通用LLM构建的。 而GPT-4o的训练集中,混杂了大量的GitHub代码数据,可能远远超过数学数据。在软件版本中,「v9.11 > v9.9」,可能严重扭曲了数据分布。因此,这个错误在某种程度上是可以理解的。
评论
让AI做IMO题的Numina,要做AI数学的ImageNet
陶哲轩在国际数学奥赛IMO上亲自给一支AI团队颁奖!怎么回事?一同举办的AI数学奥林匹克竞赛,让大模型做IMO级别的竞赛题。获奖团队Numina,在不公开的50道测试题中成功解决了29道,与第2-5名方案明显拉开差距。NuminaMath-7B模型,也一举成为数学推理方面最好的7B模型之一。更重要的
水木人工智能学堂
0