本周四,Ai2-一家位于西雅图的非营利性人工智能研究机构发布了一个模型,声称其性能优于DeepSeekV3-这是中国人工智能公司DeepSeek的领先系统之一。
Ai2的模型名为Tulu3405B,根据Ai2的内部测试,它还在某些人工智能基准测试中击败了OpenAI的GPT-4o。此外,与GPT-4o(甚至DeepSeekV3)不同,Tulu3405B是开源的,这意味着从头开始复制它所需的所有组件都是免费提供的,并且已获得许可。
Ai2的一位发言人表示,该实验室认为Tulu3405B"凸显了美国引领全球开发一流生成式人工智能模型的潜力"。
"这一里程碑是开放人工智能未来的关键时刻,巩固了美国作为竞争性开源模型领导者的地位,"该发言人说。"通过这次发布, Ai2 推出了一个强大的、由美国开发的、可替代DeepSeek模型的产品--这不仅标志着人工智能发展的关键时刻,也展示了美国可以独立于科技巨头之外,以具有竞争力的开源人工智能引领未来。"
Tulu3405B是一个相当大的模型。根据Ai2的数据,它包含4050亿个参数,需要256个GPU并行运行才能完成训练。参数大致相当于模型解决问题的能力,参数越多的模型通常比参数越少的模型表现越好。
根据Ai2公司的说法,Tulu3405B获得竞争性性能的关键之一是一种名为"可验证奖励强化学习"的技术。可验证奖励强化学习(RLVR)是在具有"可验证"结果的任务上对模型进行训练,如数学解题和遵从指令。
Ai2声称,在基准测试PopQA(一组来自维基百科的14000道专业知识题)中,Tulu3405B不仅击败了DeepSeekV3和GPT-4o,还击败了Meta的Llama3.1405B模型。Tulu3405B在GSM8K测试中的表现也是同类机型中最高的,该测试包含小学水平的数学单词问题。
Tulu3405B可通过Ai2的聊天机器人网络应用程序进行测试,训练模型的代码可在GitHub和AI开发平台HuggingFace上找到。请趁热打铁,在下一个堪称标杆的旗舰人工智能模型出现之前获得它。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】