人工智能

Mistral发布Codestral Mamba编程模型 实现更快、更长的代码生成

字号+作者: 来源:cnBeta 2024-07-17 07:52 评论(创建话题) 收藏成功收藏本文

法国人工智能初创公司Mistral以其强大的开源人工智能模型而闻名,今天,该公司在其不断壮大的大型语言模型(LLM)家族中推出了两个新产品:一个是基于数学的模'...

法国人工智能初创公司Mistral以其强大的开源人工智能模型而闻名,今天,该公司在其不断壮大的大型语言模型(LLM)家族中推出了两个新产品:一个是基于数学的模型,另一个是面向程序员和开发人员的代码生成模型,其基础是去年底由其他研究人员开发的名为Mamba的新架构。rvo品论天涯网

Mamba试图通过简化注意力机制来提高大多数领先LLM所使用的Transformer架构的效率。与更常见的基于Transformer的模型不同,基于Mamba的模型推理时间更快,上下文时间更长。包括AI21在内的其他公司和开发者已经发布了基于Mamba的新人工智能模型。rvo品论天涯网

现在,Mistral的CodestralMamba7B采用了这种新架构,即使输入文本较长,也能提供快速的响应时间。CodestralMamba非常适合代码生产力使用案例,尤其是本地编码项目。rvo品论天涯网

Mistral对该模型进行了测试,该模型将在Mistral的laPlateformeAPI上免费使用,可处理多达256000个词元的输入,是OpenAI的GPT-4o的两倍。rvo品论天涯网

在基准测试中,Mistral显示CodestralMamba在HumanEval测试中的表现优于竞争对手开源模型CodeLlama7B、CodeGemma-1.17B和DeepSeek。rvo品论天涯网

rvo品论天涯网

开发人员可以从GitHub存储库或通过HuggingFace修改和部署CodestralMamba。它将采用开源Apache2.0许可。rvo品论天涯网

Mistral声称,Codestral早期版本的性能优于CodeLlama70B和DeepSeekCoder33B等其他代码生成器。rvo品论天涯网

代码生成和编码助手已成为人工智能模型的广泛应用,GitHub的Copilot(由OpenAI提供支持)、亚马逊的CodeWhisperer和Codenium等平台越来越受欢迎。rvo品论天涯网

Mistral推出的第二个模型是Mathstral7B,这是一个专为数学推理和科学发现而设计的人工智能模型。Mistral与Numina项目共同开发了Mathstral。rvo品论天涯网

Mathstral的上下文窗口为32K,将采用Apache2.0开源许可。Mistral表示,该模型的性能超过了所有为数学推理设计的模型。它可以在推理计算时间更长的基准测试中取得"明显更好的结果"。用户可以按原样使用,也可以对模型进行微调。rvo品论天涯网

rvo品论天涯网

"Mathstral是为特定目的构建模型时实现出色性能/速度权衡的又一范例,这也是我们在laPlateforme积极推广的开发理念,尤其是其新的微调功能,"Mistral在一篇博文中说。rvo品论天涯网

用户可以通过Mistral'slaPlataforme和HuggingFace进入Mathstral。rvo品论天涯网

Mistral公司倾向于在开源系统上提供模型,它一直在与OpenAI和Anthropic等其他人工智能开发商展开激烈竞争。最近,该公司获得了6.4亿美元的B轮融资,估值接近60亿美元。该公司还获得了微软和IBM等科技巨头的投资。rvo品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]