根据ArcPrize排行榜,OpenAI的o1-pro和DeepSeek的R1等“推理”AI模型在ARC-AGI-2上的得分在1%到1.3%之间。包括GPT-4.5、Claude3.7Sonnet和Gemini2.0Flash在内的强大的非推理模型得分约为1%。
ARC-AGI测试由一些类似拼图的问题组成,其中人工智能必须从一组不同颜色的方块中识别视觉图案,并生成正确的“答案”网格。这些问题旨在迫使人工智能适应它从未见过的新问题。
ArcPrizeFoundation让400多人参加了ARC-AGI-2测试,以建立人类基准。平均而言,这些人的“小组”答对了60%的测试问题——比任何模型的得分都要好得多。
在X上的一篇文章中,Chollet声称ARC-AGI-2比测试的第一次迭代ARC-AGI-1更能衡量AI模型的实际智能。ArcPrizeFoundation的测试旨在评估AI系统是否能够有效地在其训练数据之外获得新技能。
Chollet表示,与ARC-AGI-1不同,新测试阻止AI模型依赖“蛮力”——大量计算能力——来寻找解决方案。Chollet此前承认这是ARC-AGI-1的一个重大缺陷。
为了解决第一个测试的缺陷,ARC-AGI-2引入了一个新指标:效率。它还要求模型能够即时解释模式,而不是依赖记忆。
ArcPrizeFoundation联合创始人GregKamradt在一篇博客文章中写道:“智能不仅仅由解决问题或取得高分的能力来定义。获取和部署这些能力的效率是一个至关重要的决定性因素。核心问题不仅仅是‘人工智能能否获得解决任务的技能?’,还有‘效率或成本如何?’”
ARC-AGI-1保持了大约五年的不败战绩,直到2024年12月,OpenAI发布了其高级推理模型o3,该模型的表现优于所有其他AI模型,并在评估中与人类表现相当。然而,正如我们当时所指出的,o3在ARC-AGI-1上的性能提升是付出了高昂代价的。
OpenAI的o3模型版本o3(低)在ARC-AGI-1上首次达到新高度,在测试中得分为75.7%,但在ARC-AGI-2上仅获得4%的微弱优势,每个任务使用价值200美元的计算能力。
ARC-AGI-2的发布正值科技行业众多人士呼吁建立新的、不饱和的基准来衡量人工智能的进步之际。HuggingFace的联合创始人托马斯·沃尔夫介绍说,人工智能行业缺乏足够的测试来衡量所谓的通用人工智能的关键特征,包括创造力。
除了新的基准之外,ArcPrize基金会还宣布了一项新的ArcPrize2025竞赛,要求开发人员在ARC-AGI-2测试中达到85%的准确率,同时每个任务仅花费0.42美元。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】