周二,Mistral宣布推出Voxtral,这是其首个针对企业的音频模型系列。该公司将Voxtral定位为第一个能够部署“真正可用的语音智能生产”的开放模型。
开发人员不再需要在廉价、开放但转录不准确且不能真正理解所说的内容的系统和功能良好但封闭的系统之间做出选择,而后者会让开发人员承担更高的费用并对部署控制更少。
对于企业来说,这意味着Voxtral提供了一种经济实惠的替代方案,该公司声称其价格“不到同类解决方案的一半”。
Mistral表示,Voxtral最多可以转录30分钟的音频。由于其LLM主干平台MistralSmall3.1,它可以理解最多40分钟的音频,允许用户针对音频内容提问、生成摘要,或将语音命令转换为实时操作,例如调用API或运行函数。Voxtral还支持多语言,能够转录和理解英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语和意大利语等多种语言。
该公司提供了两种“语音理解模型”。第一种是VoxtralSmall,它拥有240亿个参数,可用于生产规模部署,可与ElevenLabsScribe、GPT-4o-mini和Gemini2.5Flash竞争。
第二个模型是VoxtralMini,它拥有30亿个参数,可用于本地和边缘部署。此外,还有一个超便宜、精简、快速的API版本,名为VoxtralMiniTranscribe,该版本针对纯转录用例进行了优化,并承诺以不到一半的价格超越OpenAIWhisper。
用户可以通过在HuggingFace上下载API或在Mistral的聊天机器人LeChat中测试模型来免费试用Voxtral。据该公司称,将API集成到应用程序中的起价为每分钟0.001美元。
此次发布的一个月前,Mistral宣布推出Magistral,这是其首个推理模型系列,可以逐步解决问题,提高可靠性。

相关文章

头条焦点
精彩导读
关注我们
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】