Mistral 发布其首个开源 AI 音频模型 Voxtral-品论天涯网

随着人工智能系统功能日益强大，语音正迅速成为我们与机器沟通的默认方式。法国人工智能初创公司Mistral凭借其首个开放模型加入音频领域，旨在以开放的替代方案挑战封闭式企业系统的主导地位。 R1l品论天涯网

周二，Mistral宣布推出Voxtral，这是其首个针对企业的音频模型系列。该公司将Voxtral定位为第一个能够部署“真正可用的语音智能生产”的开放模型。R1l品论天涯网

开发人员不再需要在廉价、开放但转录不准确且不能真正理解所说的内容的系统和功能良好但封闭的系统之间做出选择，而后者会让开发人员承担更高的费用并对部署控制更少。 R1l品论天涯网

对于企业来说，这意味着Voxtral提供了一种经济实惠的替代方案，该公司声称其价格“不到同类解决方案的一半”。R1l品论天涯网

图片来源： Mistral

Mistral表示，Voxtral最多可以转录30分钟的音频。由于其LLM主干平台MistralSmall3.1，它可以理解最多40分钟的音频，允许用户针对音频内容提问、生成摘要，或将语音命令转换为实时操作，例如调用API或运行函数。Voxtral还支持多语言，能够转录和理解英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语和意大利语等多种语言。R1l品论天涯网

该公司提供了两种“语音理解模型”。第一种是VoxtralSmall，它拥有240亿个参数，可用于生产规模部署，可与ElevenLabsScribe、GPT-4o-mini和Gemini2.5Flash竞争。 R1l品论天涯网

第二个模型是VoxtralMini，它拥有30亿个参数，可用于本地和边缘部署。此外，还有一个超便宜、精简、快速的API版本，名为VoxtralMiniTranscribe，该版本针对纯转录用例进行了优化，并承诺以不到一半的价格超越OpenAIWhisper。R1l品论天涯网

用户可以通过在HuggingFace上下载API或在Mistral的聊天机器人LeChat中测试模型来免费试用Voxtral。据该公司称，将API集成到应用程序中的起价为每分钟0.001美元。 R1l品论天涯网

此次发布的一个月前，Mistral宣布推出Magistral，这是其首个推理模型系列，可以逐步解决问题，提高可靠性。 R1l品论天涯网