欧洲领先的人工智能公司之一MistralAI推出了一款名为MistralSmall3的新模型。这是一个包含240亿参数的模型,但与Llama3.370B和Qwen32B等大型模型相当(至少在MMLU-Pro基准测试中如此)。它不仅运行速度与Llama3.370B不相上下,而且速度更快。
ChatGPT上最常用的模型是GPT-4omini,它是用户用完GPT-4o请求后的备用模型。MistralSmall3的性能比这个OpenAI模型更好,据说延迟也更低。
MistralAI介绍说:"我们在Apache2.0下发布了预训练和指令调整的检查点。检查点可以作为加速进展的强大基础。需要注意的是MistralSmall3既未使用RL也未使用合成数据进行训练,因此与DeepseekR1(一项伟大而互补的开源技术!)等模型相比,它在模型制作流程中处于较早阶段。它可以作为建立累积推理能力的基础模型。我们期待看到开源社区如何采用和定制它。"
作为一个偏小型的模型,如果你的电脑配置较高,也有可能在自己的电脑上本地运行它。MistralAI表示,它可以在单块NVIDIARTX4090显卡或配备32GB内存的MacBook上运行。
虽然该机型在MMLU-Pro基准测试中的表现优于上述其他机型,但它并不总是人类评估人员的首选。Mistral在一组超过1k的专有编码和通用提示中将其模型与其他模型进行了比较。研究发现,与Gemma-227B和Qwen-32B相比,MistralSmall3是首选方案,但与Llama3.370B和GPT-4omini相比,MistralSmall3的首选度较低。
MistralSmall3现以mistral-small-latest或mistral-small-2501的形式在平台上提供。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】