Mistral 发布首款多模态模型 Pixtral 12B-品论天涯网

法国人工智能初创公司Mistral发布了首款可处理图像和文本的模型。该模型名为Pixtral12B，拥有120亿个参数，大小约为24GB。参数大致相当于模型解决问题的能力，参数越多的模型通常比参数越少的模型性能越好。Lby品论天涯网

Lby品论天涯网

新模型建立在Mistral的文本模型Nemo12B上，可以回答关于任意数量、任意大小的图片的问题，这些图片可以是图片URL，也可以是使用二进制文本编码方案base64编码的图片。与Anthropic的Claude系列和OpenAI的GPT-4o等其他多模态模型类似，Pixtral12B至少在理论上可以完成为图片添加标题和计算照片中物体数量等任务。Lby品论天涯网

Pixtral12B可通过GitHub和人工智能与机器学习开发平台HuggingFace上的torrent链接下载、微调，并根据Mistral的标准许可使用。Lby品论天涯网

遗憾的是，在本文发表时，还没有任何可用的网络演示。Mistral开发者关系主管SophiaYang在X上发表文章称，Pixtral12B将很快在Mistral的聊天机器人和API服务平台LeChat和LePlatforme上进行测试。Lby品论天涯网

Lby品论天涯网

目前还不清楚Mistral可能使用了哪些图像数据来开发Pixtral12B。Lby品论天涯网

Pixtral120亿美元的融资是在Mistral获得由GeneralCatalyst领投的6.45亿美元融资之后进行的，该轮融资使该公司估值达到60亿美元。刚刚成立一年多的Mistral被人工智能界的许多人视为欧洲对OpenAI的回应。迄今为止，这家年轻公司的战略包括发布免费的"开放"模型，对这些模型的托管版本收费，以及为企业客户提供咨询服务。Lby品论天涯网