人工智能

1320亿参数,性能超LLaMA2、Grok-1!开源大模型DBRX

字号+作者: 来源:​AIGC开放社区公众号 2024-03-28 08:39 评论(创建话题) 收藏成功收藏本文

声明:本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权站长之家转载发布。3月28日,著名数据和AI平台Databricks在官网正式开源大模'...

声明:本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权站长之家转载发布。BPz品论天涯网

3月28日,著名数据和AI平台Databricks在官网正式开源大模型——DBRX。BPz品论天涯网

DBRX是一个专家混合模型(MoE)有1320亿参数,能生成文本/代码、数学推理等,有基础和微调两种模型。BPz品论天涯网

根据DBRX在MMLU、HumanEval和 GSM8K公布的测试数据显示,不仅性能超过了LLaMA2-70B和马斯克最近开源的Grok-1,推理效率比LLaMA2-70B快2倍,总参数却只有Grok-1的三分之一,是一款功能强算力消耗低的大模型。BPz品论天涯网

基础模型:https://huggingface.co/databricks/dbrx-baseBPz品论天涯网

微调模型:https://huggingface.co/databricks/dbrx-instructBPz品论天涯网

Github:https://github.com/databricks/dbrxBPz品论天涯网

在线demo:https://huggingface.co/spaces/databricks/dbrx-instructBPz品论天涯网

图片BPz品论天涯网

Databricks作为数据管理领域的超级独角兽,为了抓住生成式AI的风口,2023年6月26日曾以13亿美元的天价,收购了大模型开源平台MosaicMLBPz品论天涯网

MosaicML曾在2023年5月5日发布了类ChatGPT开源大语言模型MPT-7B。(开源地址:https://huggingface.co/mosaicml/mpt-7b)该项目具备可商业化、高性能、算力消耗低、1T训练数据等技术优势。BPz品论天涯网

MPT-7B只进行了大约10天的训练,零人工干预,训练成本仅用了20万美元。性能却打败了LLaMA-7B、StablelM-7B 、Cerebras-13B等当时知名开源模型。BPz品论天涯网

图片BPz品论天涯网

截至目前,MPT-7B的下载量已超过300万次,而Databricks此次发布的DBRX在MPT-7B基础之上进行了大幅度优化并且将算力需求降低了4倍。BPz品论天涯网

DBRX简单介绍BPz品论天涯网

DBRX是一款基于Transformer的MoE架构大模型,1320亿参数中的360亿参数处于长期激活状态。BPz品论天涯网

这与其它开源的MoE类型模型如Mixtral、Grok-1相比,DBRX使用了数量更多的小专家模型。DBRX有16个专家并选择4个,而Mixtral和Grok-1有8个专家并选择了2个BPz品论天涯网

DBRX使用了12T的文本和代码数据(支持中文),支持32k上下文窗口,并在3072个 英伟达的 H100上进行了3个月的预训练。BPz品论天涯网

DBRX除了与开源模型进行了对比之外,还与OpenAI的GPT系列、谷歌的Gemini以及Anthropic最新发布的Claude3系列进行了同台竞技。BPz品论天涯网

图片BPz品论天涯网

MMLU、HellaSwag、WinoGrande、HumanEval等综合测试结果显示,DBRX推理、数学解答、语言理解、代码等能力超过了GPT-3.5,性能与谷歌的Gemini1.0Pro 性能差不多。BPz品论天涯网

什么是专家混合模型BPz品论天涯网

MoE模型全称为Mixture of Experts,其核心原理是将一个庞大的神经网络分解为多个相对独立的小型子网络(即专家),每个专家负责处理输入数据的某些方面。BPz品论天涯网

这种架构设计使得MoE模型能够高效利用计算资源,避免对所有参数进行无谓的计算。主要包括门控制机制、专家网络和聚合器三大模块BPz品论天涯网

图片BPz品论天涯网

门控机制:这是MoE模型的核心模块,负责决定每个输入应该由哪个或哪几个专家处理。BPz品论天涯网

门控机制会根据输入数据的特征分配权重给不同的专家,这个过程是动态的,意味着不同的输入会根据其内容被分配给最合适的专家处理。例如,Grok-1模型中只有大约25%的参数被实际使用或“激活”。BPz品论天涯网

专家网络:这些是模型中的子网络,每个都有自己特定的参数配置。在传统的MoE模型中,这些专家网络可以是结构相同但参数不同的多个神经网络。每个网络都专注于模型任务的一个方面或输入数据的一个子集。BPz品论天涯网

聚合器:一旦各个专家给出了自己对于输入的处理结果,聚合器则负责将这些结果综合起来,形成最终的输出。聚合的方式可以是简单的加权和、投票机制或者更复杂的融合策略。BPz品论天涯网

MoE是开发、训练超过千亿参数大模型常用的架构,例如,GPT-4、Palm2等著名大模型使用的都是该架构。BPz品论天涯网

关于DatabricksBPz品论天涯网

Databricks创立于2013年,总部位于美国旧金山,在全球多个国家、地区设有办事处。其企业客户超过10000家,包括众多财富500强企业。BPz品论天涯网

Databricks主要提数据智能分析服务,帮助企业、个人用户快速挖掘数据的商业价值。BPz品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]