人工智能

OpenAI的GPT-4.5在Chatbot Arena的多个类别中占据领先地位

字号+作者:cnBeta.COM 来源:cnBeta 2025-03-04 10:33 评论(创建话题) 收藏成功收藏本文

上周,OpenAI推出了GPT-4.5,这是其迄今为止最大的前沿模型。OpenAI声称,GPT-4.5是迄今为止知识最丰富的模型,它是通过进一步扩展预训练过程而构建的。与Open'...

上周,OpenAI推出了GPT-4.5,这是其迄今为止最大的前沿模型。OpenAI声称,GPT-4.5是迄今为止知识最丰富的模型,它是通过进一步扩展预训练过程而构建的。与OpenAI的旧版模型相比,GPT-4.5模型除了拥有更多知识外,还提高了写作技巧,并拥有更精致的个性。5B5品论天涯网

今天,GPT-4.5模型首次亮相ChatbotArena,在大多数类别中均排名第一。在以下类别中,GPT-4.5均名列榜首,并在"Multi-Turn"类别中遥遥领先。GPT-4.5还在风格控制排行榜上遥遥领先。5B5品论天涯网

  • 多转5B5品论天涯网

  • 硬提示5B5品论天涯网

  • 编程5B5品论天涯网

  • 数学5B5品论天涯网

  • 创意写作5B5品论天涯网

  • 跟踪指导5B5品论天涯网

  • 更长的查询5B5品论天涯网

  • xAI最新的Grok-3模型(grok-3-preview-02-24)也首次出现在竞技场排行榜上,在"难点提示"(英语)中排名第一,在"编码"、"数学"、"创意写作"、"指令跟踪"和"长查询"中并列排名第一。GPT-4.5和Grok-3所展示的快速进步凸显了人工智能领域日益激烈的竞争。5B5品论天涯网

    5B5品论天涯网

    OpenAI的GPT-4.5在其他几项人工智能基准测试中均名列前茅。它在"淘汰赛"基准测试中名列第一。淘汰赛是一项多方比赛,测试LLM的社交推理、策略和欺骗能力。在智商测试得分排名中,GPT-4.5的表现优于业内所有其他非推理模型。在SimpleQA幻觉率基准测试中,GPT-4.5在OpenAI的所有大型语言模型中得分最低。5B5品论天涯网

    上个月,OpenAI首席执行官SamAltman 透露,GPT-4.5是OpenAI最后一个非思维链模型。此外,OpenAI将不再以独立模型的形式发布o3。取而代之的是,OpenAI将统一o系列和GPT系列模型,创建可根据用户查询确定适当思考时间的系统。5B5品论天涯网

    SamAltman还确认,即使是ChatGPT免费层用户也可以使用GPT-5,但只能在标准智能设置下使用。ChatGPTPlus用户将能以更高的智能级别运行GPT-5,而专业版用户将能以更高的智能级别运行GPT-5。此外,统一模式将支持所有现有的ChatGPT功能,如语音、画布、搜索、深度研究等。5B5品论天涯网

    本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱service@pltyw.com

    11
    扫二维码添加收藏返回顶部