人工智能

大多数AI在读取时钟与计算日期方面都很吃力 错误率甚至高达75%

字号+作者:cnBeta.COM 来源:cnBeta 2025-03-17 21:19 评论(创建话题) 收藏成功收藏本文

生成式人工智能工具能够执行那些曾经似乎是科幻小说中的任务,但它们中的大多数在许多基本技能方面仍然很吃力,包括阅读模拟时钟和日历。一项新的研究发现'...

生成式人工智能工具能够执行那些曾经似乎是科幻小说中的任务,但它们中的大多数在许多基本技能方面仍然很吃力,包括阅读模拟时钟和日历。一项新的研究发现,总体而言,人工智能系统正确读取钟面的时间不到四分之一。Y0y品论天涯网

Y0y品论天涯网

爱丁堡大学的一个研究小组测试了一些顶级多模态大型语言模型,看看它们能在多大程度上回答基于钟表和日历图像的问题。Y0y品论天涯网

接受测试的系统包括GoogleDeepMind的Gemini2.0、Anthropic的Claude3.5Sonnet、Meta的Llama3.2-11B-Vision-Instruct、阿里巴巴的Qwen2-VL7B-Instruct、ModelBest的MiniCPM-V-2.6,以及OpenAI的GPT-4o和GPT-o1。Y0y品论天涯网

图像中出现了各种类型的时钟:有罗马数字的、有秒针的、没有秒针的、不同颜色表盘的等等。Y0y品论天涯网

系统正确读取时钟的比例不到25%。对于使用罗马数字和风格化指针的时钟,它们的表现更为吃力。Y0y品论天涯网

去掉秒针后,人工智能的表现并没有改善,这让研究人员认为,问题来自于检测时钟的指针和解释钟面上的角度。Y0y品论天涯网

研究人员利用10年的日历图像,提出了一些问题,如元旦是星期几?即使是最成功的人工智能模型,也有20%的时间把日历问题做错了。Y0y品论天涯网

成功率因所使用的人工智能系统而异。双子座-2.0在时钟测试中得分最高,而GPT-01在日历问题上有80%的准确率。Y0y品论天涯网

研究负责人、爱丁堡大学信息学院的罗希特-萨克塞纳(RohitSaxena)说:"大多数人从小就会看时间和使用日历。研究结果凸显了人工智能在完成人类基本技能方面存在的巨大差距。如果要将人工智能系统成功整合到时间敏感的现实世界应用中,如调度、自动化和辅助技术,就必须解决这些不足。"Y0y品论天涯网

爱丁堡大学信息学院的另一位研究员阿里奥-盖马(AryoGema)说:"当今的人工智能研究往往强调复杂的推理任务,但具有讽刺意味的是,许多系统在处理较简单的日常任务时仍然相当吃力。"Y0y品论天涯网

这些发现将在同行评审的论文中报告,论文将于4月28日在新加坡举行的第十三届国际学习表征会议(ICLR)的大型语言模型推理与规划研讨会上发表。研究结果目前可在预印本服务器arXiv上查阅。Y0y品论天涯网

这并不是本月第一项表明人工智能系统仍然会犯很多错误的研究。陶氏数字新闻中心对八个人工智能搜索引擎进行了研究,发现它们有60%的时间是不准确的。最糟糕的是Grok-3,其准确率高达94%。Y0y品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱service@pltyw.com

评论(0人参与,0条评论)
  • 请先说点什么
    热门评论
    最新评论
    正在载入评论列表...

    查看完整讨论话题】 | 【用户登录】 | 【用户注册

    20
    扫二维码添加收藏返回顶部