人工智能

研究人员使用公共广播电台的"星期日之谜"问题为AI推理模型设定基准

字号+作者:cnBeta.COM 来源:cnBeta 2025-02-06 16:22 评论(创建话题) 收藏成功收藏本文

每周日,美国国家公共广播电台(NPR)主持人、《纽约时报》填字游戏大师威尔-肖茨(WillShortz)都会在一个名为"周日谜题"(SundayPuzzle)的长时段节目中向成千上万'...

每周日,美国国家公共广播电台(NPR)主持人、《纽约时报》填字游戏大师威尔-肖茨(WillShortz)都会在一个名为"周日谜题"(SundayPuzzle)的长时段节目中向成千上万的听众提问。虽然这些谜题是在没有太多预知知识的情况下就能解开的,但即使对于熟练的参赛者来说,这些脑筋急转弯通常也是具有挑战性的。cN9品论天涯网

cN9品论天涯网

这就是为什么一些专家认为它们是测试人工智能解决问题能力极限的一种有前途的方法。在一项新研究中,来自韦尔斯利学院、欧柏林学院、德克萨斯大学奥斯汀分校、东北大学和初创公司Cursor的研究团队利用《周日谜语》中的谜语创建了一个人工智能基准。研究团队表示,他们的测试发现了一些令人惊讶的现象,比如所谓的推理模型--OpenAI的o1等--有时会"放弃",并提供明知不正确的答案。cN9品论天涯网

东北大学计算机科学本科生、本研究的共同作者之一阿尔琼-古哈(ArjunGuha)说:"我们想用人类仅凭常识就能理解的问题来开发一个基准。"cN9品论天涯网

人工智能行业目前正处于基准测试的窘境。大多数常用于评估人工智能模型的测试都在探究一些技能,比如博士水平的数学和科学问题,而这些技能与普通用户并不相关。与此同时,许多基准--甚至最近发布的基准都在迅速接近饱和点。cN9品论天涯网

古哈解释说,像"周日之谜"这样的公共广播问答游戏的优势在于,它不测试深奥的知识,而且挑战的措辞使得模型无法利用"死记硬背"来解决这些问题。cN9品论天涯网

古哈说:"我认为这些问题之所以难,是因为在你解决一个问题之前,很难在这个问题上取得有意义的进展--这就是所有事情一拍即合的时候。这需要洞察力和排除法的结合。"cN9品论天涯网

当然,没有一个基准是完美的。例如"周日之谜"以美国为中心,并且只使用英语。由于测验是公开的,因此模型有可能在测验中接受训练,从而在某种意义上"作弊",不过古哈说他还没有看到这方面的证据。cN9品论天涯网

他补充说:"每周都会发布新的问题,我们可以期待最新的问题真正是前所未见的。"我们打算保持基准的新鲜度,并跟踪模型性能随时间的变化情况。"cN9品论天涯网

研究人员的基准测试包括约600个"星期日之谜"(SundayPuzzle )谜语,在测试中,o1和DeepSeek的R1等推理模型的表现远远优于其他模型。推理模型在给出结果之前会进行彻底的事实检查,这有助于它们避免一些通常会让人工智能模型翻车的陷阱 。代价是推理模型需要更长的时间才能找到解决方案,通常需要几秒到几分钟。cN9品论天涯网

至少有一个模型,即DeepSeek的R1,在回答一些"周日之谜"的问题时,给出了它知道是错误的答案。R1会逐字逐句地说"我放弃",然后给出一个看似随机选择的错误答案--这种行为人类肯定能感同身受。cN9品论天涯网

模型还会做出其他奇怪的选择,比如给出一个错误的答案,但马上又收回,试图找出一个更好的答案,结果又失败了。它们还会永远陷入"思考",并对答案做出无意义的解释,或者马上得出一个正确答案,但随后又无缘无故地考虑其他答案。cN9品论天涯网

古哈说:"在遇到难题时,R1真的会说它正在'沮丧'。看到模型如何模仿人类可能会说的话,真是有趣。推理中的'挫败感'会如何影响模型结果的质量,还有待观察。"cN9品论天涯网

cN9品论天涯网

R1在"周日之谜"挑战集的一个问题上"受挫"。图片来源:Guhaetal.cN9品论天涯网

目前在基准测试中表现最好的模型是o1,得分率为59%,其次是最近发布的o3-mini,其"推理强度"设置为较高(47%)(R1得分为35%)。(下一步,研究人员计划将测试范围扩大到更多的推理模型,他们希望这将有助于确定这些模型可能需要改进的地方。cN9品论天涯网

cN9品论天涯网

研究小组在基准测试中测试的模型得分。图片来源:Guhaetal.cN9品论天涯网

古哈说:"推理能力强并不需要博士学位,因此应该可以设计出不需要博士水平知识的推理基准。一个具有更广泛访问权限的基准可以让更多的研究人员理解和分析结果,这反过来又可能在未来带来更好的解决方案。此外,随着最先进的模型越来越多地应用于影响每个人的环境中,我们认为每个人都应该能够直观地了解这些模型的能力。"cN9品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱service@pltyw.com

22
扫二维码添加收藏返回顶部