Ai2 称其新型人工智能模型击败了 DeepSeek-品论天涯网

本周四，Ai2-一家位于西雅图的非营利性人工智能研究机构发布了一个模型，声称其性能优于DeepSeekV3-这是中国人工智能公司DeepSeek的领先系统之一。TEy品论天涯网

Ai2的模型名为Tulu3405B，根据Ai2的内部测试，它还在某些人工智能基准测试中击败了OpenAI的GPT-4o。此外，与GPT-4o（甚至DeepSeekV3）不同，Tulu3405B是开源的，这意味着从头开始复制它所需的所有组件都是免费提供的，并且已获得许可。TEy品论天涯网

Ai2的一位发言人表示，该实验室认为Tulu3405B"凸显了美国引领全球开发一流生成式人工智能模型的潜力"。TEy品论天涯网

"这一里程碑是开放人工智能未来的关键时刻，巩固了美国作为竞争性开源模型领导者的地位，"该发言人说。"通过这次发布， Ai2 推出了一个强大的、由美国开发的、可替代DeepSeek模型的产品--这不仅标志着人工智能发展的关键时刻，也展示了美国可以独立于科技巨头之外，以具有竞争力的开源人工智能引领未来。"TEy品论天涯网

Tulu3405B是一个相当大的模型。根据Ai2的数据，它包含4050亿个参数，需要256个GPU并行运行才能完成训练。参数大致相当于模型解决问题的能力，参数越多的模型通常比参数越少的模型表现越好。TEy品论天涯网

Ai2对Tulu3405B完成了流行基准测试。图片来源：Ai2

根据Ai2公司的说法，Tulu3405B获得竞争性性能的关键之一是一种名为"可验证奖励强化学习"的技术。可验证奖励强化学习（RLVR）是在具有"可验证"结果的任务上对模型进行训练，如数学解题和遵从指令。TEy品论天涯网

Ai2声称，在基准测试PopQA（一组来自维基百科的14000道专业知识题）中，Tulu3405B不仅击败了DeepSeekV3和GPT-4o，还击败了Meta的Llama3.1405B模型。Tulu3405B在GSM8K测试中的表现也是同类机型中最高的，该测试包含小学水平的数学单词问题。TEy品论天涯网

Tulu3405B可通过Ai2的聊天机器人网络应用程序进行测试，训练模型的代码可在GitHub和AI开发平台HuggingFace上找到。请趁热打铁，在下一个堪称标杆的旗舰人工智能模型出现之前获得它。TEy品论天涯网