非正式的、奇怪的人工智能基准不断增加。过去几天,X上的一些人工智能社区开始痴迷于不同人工智能模型,尤其是所谓的推理模型如何处理类似提示的测试:"编写一个Python脚本,让黄色小球在一个图形中弹跳,同时让形状缓慢旋转,并确保小球保持在形状内"。
在"旋转在图形中的球"基准测试中,有些模型比其他模型做得更好。据X上的一位用户称,中国人工智能实验室DeepSeek的免费提供的R1击败了OpenAI的o1Pro,后者作为OpenAI的ChatGPTPro计划的一部分,每月收费200美元。
根据另一X推文,Anthropic的Claude3.5Sonnet和Google的Gemini1.5Pro模型错误地判断了物理图形,导致球脱离了图形。而Otherusers报告称,Google的Gemini2.0FlashThinkingExperimental甚至OpenAI的旧版GPT-4o都一次性通过了评估。
模拟弹跳球是一项经典编程挑战。精确的模拟包含碰撞检测算法,该算法试图识别两个物体(例如一个球和一个形状的侧面)何时发生碰撞。编写不当的算法会影响模拟性能,或导致明显的物理错误。
X用户n8programs是人工智能初创公司NousResearch的常驻研究员,他说,他花了大约两个小时从头开始为旋转七边形中的弹跳球编程。n8programs在一篇帖子中解释说:"我们必须跟踪多个坐标系,了解每个坐标系中的碰撞是如何发生的,并从一开始就设计出可靠的代码。"
不过,虽然弹跳球和旋转形状是对编程技巧的合理测试,但它们并不是一个非常实证的人工智能基准。即使是提示的细微变化,也会产生不同的结果。这就是为什么X上的一些用户表示使用o1时运气更佳,而另一些用户则表示使用R1时效果不佳。
类似这样的病毒测试则指出了为人工智能模型创建有用的测量系统这一棘手的问题。除了与大多数人无关的深奥基准之外,通常很难说清一个模型与另一个模型的区别。
许多人正在努力构建更好的测试,例如ARC-AGI基准和Humanity'sLastExam。我们将拭目以待,在此期间,请观看球在旋转形状中弹跳的GIF。

相关文章

头条焦点
精彩导读
关注我们
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】