人工智能

Mistral 发布其首个开源 AI 音频模型 Voxtral

字号+作者:cnBeta.COM 来源:cnBeta 2025-07-16 03:40 评论(创建话题) 收藏成功收藏本文

随着人工智能系统功能日益强大,语音正迅速成为我们与机器沟通的默认方式。法国人工智能初创公司Mistral凭借其首个开放模型加入音频领域,旨在以开放的替'...

随着人工智能系统功能日益强大,语音正迅速成为我们与机器沟通的默认方式。法国人工智能初创公司Mistral凭借其首个开放模型加入音频领域,旨在以开放的替代方案挑战封闭式企业系统的主导地位。  jVo品论天涯网

jVo品论天涯网

周二,Mistral宣布推出Voxtral,这是其首个针对企业的音频模型系列。该公司将Voxtral定位为第一个能够部署“真正可用的语音智能生产”的开放模型。jVo品论天涯网

开发人员不再需要在廉价、开放但转录不准确且不能真正理解所说的内容的系统和功能良好但封闭的系统之间做出选择,而后者会让开发人员承担更高的费用并对部署控制更少。 jVo品论天涯网

对于企业来说,这意味着Voxtral提供了一种经济实惠的替代方案,该公司声称其价格“不到同类解决方案的一半”。jVo品论天涯网

jVo品论天涯网

图片来源: MistraljVo品论天涯网

Mistral表示,Voxtral最多可以转录30分钟的音频。由于其LLM主干平台MistralSmall3.1,它可以理解最多40分钟的音频,允许用户针对音频内容提问、生成摘要,或将语音命令转换为实时操作,例如调用API或运行函数。Voxtral还支持多语言,能够转录和理解英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语和意大利语等多种语言。jVo品论天涯网

该公司提供了两种“语音理解模型”。第一种是VoxtralSmall,它拥有240亿个参数,可用于生产规模部署,可与ElevenLabsScribe、GPT-4o-mini和Gemini2.5Flash竞争。 jVo品论天涯网

第二个模型是VoxtralMini,它拥有30亿个参数,可用于本地和边缘部署。此外,还有一个超便宜、精简、快速的API版本,名为VoxtralMiniTranscribe,该版本针对纯转录用例进行了优化,并承诺以不到一半的价格超越OpenAIWhisper。jVo品论天涯网

用户可以通过在HuggingFace上下载API或在Mistral的聊天机器人LeChat中测试模型来免费试用Voxtral。据该公司称,将API集成到应用程序中的起价为每分钟0.001美元。 jVo品论天涯网

此次发布的一个月前,Mistral宣布推出Magistral,这是其首个推理模型系列,可以逐步解决问题,提高可靠性。 jVo品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]