苹果大模型MM1入场：参数达到300亿超半数作者是华人-品论天涯网

要点:tQJ品论天涯网
苹果发布了多模态大型语言模型MM1，参数达到300亿，采用MoE架构，超半数作者为华人。tQJ品论天涯网
MM1在模型架构、预训练数据选择和训练方法上进行了详细探讨，并在多项基准测试中表现出竞争力。tQJ品论天涯网
MM1的预训练和监督微调结果显示，采用不同的数据和训练策略可以获得更好的性能，MoE模型进一步扩展了潜力。tQJ品论天涯网

站长之家（ChinaZ.com）3月15日消息:苹果公司最新发布了一款名为MM1的大型多模态基础模型，拥有300亿参数，采用了MoE架构，并且超过一半的作者是华人。该模型在多模态领域具有重要意义，可能预示着苹果未来推出与此相关的产品。tQJ品论天涯网

今年以来，苹果明显加大了对生成式人工智能（GenAI）领域的投入，这一举措体现了苹果在GenAI领域取得重大进展的决心。据悉，苹果一部分转向GenAI的团队原本是从事造车项目的，而如今他们也开始投身于GenAI领域的研发工作。tQJ品论天涯网

tQJ品论天涯网

论文地址:https://arxiv.org/pdf/2403.09611.pdftQJ品论天涯网

MM1的发布引起了广泛关注。据论文介绍，该模型采用了MoE变体，并且在预训练指标和多项多模态基准测试上表现出了领先水平。研究者通过多项消融试验，探讨了模型架构、预训练数据选择以及训练程序等方面的重要性。他们发现，图像分辨率、视觉编码器损失和预训练数据在建模设计中都起着关键作用。tQJ品论天涯网

在预训练数据选择方面，研究者发现了几个重要经验:交错数据对提高少样本和纯文本性能有帮助，而字幕数据则对提高零样本性能具有重要作用。tQJ品论天涯网

此外，纯文本数据对于提高少样本和纯文本性能同样至关重要。通过合理混合图像和文本数据，可以获得最佳的多模态性能，并保留较强的文本性能。研究者还发现，人工合成数据有助于少样本学习。tQJ品论天涯网

最终，研究者确定了MM1的最终配方，包括图像编码器、视觉语言连接器和预训练数据的选择。他们还将LLM的大小扩大到3B、7B和30B个参数，并通过专家混合（MoE）进一步扩展了模型。在监督微调实验中，MM1在多项基准测试上表现出了竞争力，并且MoE模型在几乎所有基准测试中均表现优于密集模型。tQJ品论天涯网

MM1的发布标志着苹果在多模态领域的重要进展，也为未来苹果可能推出的相关产品奠定了技术基础。该研究的成果对于推动生成式人工智能领域的发展具有重要意义，值得业界密切关注。tQJ品论天涯网

苹果大模型MM1入场：参数达到300亿 超半数作者是华人

苹果大模型MM1入场：参数达到300亿超半数作者是华人