人工智能

阿里通义千问开源Qwen1.5-MoE-A2.7B模型

字号+作者: 来源:站长之家 2024-03-29 17:17 评论(创建话题) 收藏成功收藏本文

站长之家(ChinaZ.com) 3月29日 消息:通义千问团队推出了 Qwen 系列的首个 MoE 模型,命名为 Qwen1.5-MoE-A2.7B。这个模型只有27亿个激活参数,但性能却与'...

站长之家(ChinaZ.com) 3月29日 消息:通义千问团队推出了 Qwen 系列的首个 MoE 模型,命名为 Qwen1.5-MoE-A2.7B。这个模型只有27亿个激活参数,但性能却与当前最先进的70亿参数模型相媲美。与 Qwen1.5-7B 相比,Qwen1.5-MoE-A2.7B 只有20亿个非嵌入参数,大约是原模型大小的三分之一。此外,相较于 Qwen1.5-7B,Qwen1.5-MoE-A2.7B 的训练成本降低了75%,推理速度提升了1.74倍。02d品论天涯网

阿里云、通义千问02d品论天涯网

Qwen1.5-MoE 模型采用了特别设计的 MoE 架构。与传统 MoE 方法不同的是,Qwen1.5-MoE 使用了64个 finegrained experts,并引入了新的 routing 机制 DeepSeek-MoE 和 DBRX。这种 finegrained experts 设计的目的是在不增加参数数量的情况下生成更多 expert。Qwen1.5-MoE 模型在训练成本和推理效率方面表现出色,性能接近最先进的7B 模型。02d品论天涯网

Qwen1.5-MoE-A2.7B 模型拥有14.3亿激活参数和2亿非嵌入参数,训练成本降低了75%。在实验中,使用单个 NVIDIA A100-80G GPU 测试时,Qwen1.5-MoE-A2.7B 的推理速度提高了约1.74倍。Qwen1.5-MoE 模型已在 ModelScope 社区开源,可直接下载使用。02d品论天涯网

除了性能和效率,Qwen1.5-MoE 模型还将持续更新对第三方框架的支持,包括 llama.cpp、MLX 等。02d品论天涯网

总体来说,Qwen1.5-MoE 模型在性能、效率和推理速度方面取得了显著的优势,是推理训练的最佳实践之一。02d品论天涯网

Qwen1.5-MoE体验链接:02d品论天涯网

https://modelscope.cn/studios/qwen/qwen1.5-MoE-A2.7B-Chat-GPTQ-Int4-demo02d品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]