法国人工智能初创公司Mistral发布了首款可处理图像和文本的模型。该模型名为Pixtral12B,拥有120亿个参数,大小约为24GB。参数大致相当于模型解决问题的能力,参数越多的模型通常比参数越少的模型性能越好。
新模型建立在Mistral的文本模型Nemo12B上,可以回答关于任意数量、任意大小的图片的问题,这些图片可以是图片URL,也可以是使用二进制文本编码方案base64编码的图片。与Anthropic的Claude系列和OpenAI的GPT-4o等其他多模态模型类似,Pixtral12B至少在理论上可以完成为图片添加标题和计算照片中物体数量等任务。
Pixtral12B可通过GitHub和人工智能与机器学习开发平台HuggingFace上的torrent链接下载、微调,并根据Mistral的标准许可使用。
遗憾的是,在本文发表时,还没有任何可用的网络演示。Mistral开发者关系主管SophiaYang在X上发表文章称,Pixtral12B将很快在Mistral的聊天机器人和API服务平台LeChat和LePlatforme上进行测试。
目前还不清楚Mistral可能使用了哪些图像数据来开发Pixtral12B。
大多数生成式人工智能模型,包括Mistral的其他模型,都是在网络上的大量公共数据上训练出来的,而这些数据通常都是受版权保护的。一些模型供应商辩称,"合理使用"权使他们有权采集任何公共数据,但许多版权所有者不同意,并已对OpenAI和Midjourney等大型供应商提起诉讼,以阻止这种做法。
Pixtral120亿美元的融资是在Mistral获得由GeneralCatalyst领投的6.45亿美元融资之后进行的,该轮融资使该公司估值达到60亿美元。刚刚成立一年多的Mistral被人工智能界的许多人视为欧洲对OpenAI的回应。迄今为止,这家年轻公司的战略包括发布免费的"开放"模型,对这些模型的托管版本收费,以及为企业客户提供咨询服务。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】