GPT-4o攻破ARC-AGI无法被挑战的神话!71%准确率成新SOTA
新智元
共 4593字,需浏览 10分钟
·
2024-06-20 10:28
新智元报道
新智元报道
【新智元导读】号称不可能轻易被击败的AGI基准ARC-AGI被GPT-4o撼动,GPT-4o以在公共测试集50%、在训练集71%的准确率成为了新的SOTA!
什么是ARC-AGI?
怎么让GPT-4o做到的
-
向GPT-4o介绍ARC-AGI 的问题,并为问题中的每个网格提供图像表示法和各种文本表示法。
-
指导GPT-4o推理背后的规律,进一步推理如何用代码实现转换,最后用代码实现。
-
使用几次提示以及几个精心手写的分步推理示例来实际让GPT-4o有效地进行此推理。生成的提示通常长度约为30k个token(包括图像)。
-
从GPT-4o中抽取大量的完成样本(每个问题约5000个)。
-
针对每个问题选取最有希望的12个补全,然后通过向GPT-4o展示该程序在示例中的实际输出,并要求GPT-4o修改代码使其正确,从而尝试修复每个补全。
-
然后,根据对正确示例程序的多数投票结果,选出3个提交程序。
GPT-4o存在的非推理弱点
-
GPT-4o看不清楚。GPT-4o在网格上的视力很糟糕,当被要求描述一个较大的网格中的内容时,它通常无法正确「看清」输入,并陈述有关某些位置的颜色或存在的形状的错误事实。
-
GPT-4o不太擅长编码(特别是对于此类几何操作问题),并且经常犯一些简单的错误,例如差一错误(Off-by-one error,OBOE)。
-
当上下文中的token超过32k时,其性能会下降。
距离ARC-AGI大奖还有多远?
LLM有学习能力吗
如果你是对的(LLMs可以进行情境学习),那么,LLMs在ARC谜题上会表现得很好,因为 ARC 谜题并不复杂。你不需要认真思考它,它们实际上对人类来说非常明显。 即使是孩子也可以做到,但LLMs不能。即使 LLMs 的知识比你多100,000倍,仍然做不到。ARC唯一的特殊之处在于它的设计初衷就是为了抵制记忆。这是 LLM性能的巨大障碍。 如果仔细观察LLMs,很明显他们并没有真正即时合成新程序来解决他们面临的任务。
评论