人工智能

微软开发新型大模型压缩方法SliceGPT

字号+作者: 来源:站长之家 2024-01-29 16:57 评论(创建话题) 收藏成功收藏本文

站长之家(ChinaZ.com)1月29日 消息:SliceGPT是微软开发的一种新型的大语言模型压缩方法。通过SLICE GPT,可以在保持99%,99%,和90%零样本任务性能的同时,将LLA'...

站长之家(ChinaZ.com)1月29日 消息:SliceGPT是微软开发的一种新型的大语言模型压缩方法。通过SLICE GPT,可以在保持99%,99%,和90%零样本任务性能的同时,将LLAMA2-70B、OPT66B和Phi-2模型分别去除高达25%的模型参数(包括嵌入)。ve9品论天涯网

这意味着使用SLICE GPT的模型可以在更少的GPU上运行,并且运行速度更快,无需任何额外的代码优化。在24GB的消费级GPU上,将LLAMA2-70B的总计算量减少到密集模型的64%;在40GB的A100GPU上减少到66%。ve9品论天涯网

image.pngve9品论天涯网

论文地址:https://arxiv.org/pdf/2401.15024.pdfve9品论天涯网

SLICE GPT的主要特点包括解决了大语言模型在存储和计算资源上的高需求问题,并提供了一种有效减轻这些资源需求的方法,同时保持或仅轻微牺牲模型性能,这对于推广大型模型的应用和降低运行成本具有重要意义。ve9品论天涯网

具体来说,SLICE GPT能够减少大型语言模型的尺寸,通过在不损失显著性能的前提下,减少模型参数数量,SLICE GPT能够减少大型语言模型的尺寸。它还能提高模型在硬件上的运行效率,减少了所需的计算资源,并且能够在去除一定比例的模型参数的同时,保持模型的性能。此外,SLICE GPT不仅适用于特定的模型或架构,它的方法可以广泛应用于各种变换器网络模型。ve9品论天涯网

SLICE GPT的工作原理基于一种新的后训练稀疏化方案,通过两个关键步骤来减少大型语言模型的计算和内存需求。首先是替换权重矩阵,通过将模型中的每个权重矩阵替换为一个更小的(密集的)矩阵来减少网络的嵌入维度,有效地缩减了模型的大小。ve9品论天涯网

其次是维持计算不变性,SLICE GPT引入了变换器网络中的“计算不变性”概念,通过特定的变换操作,改变权重矩阵的形状,而不改变其在模型中的功能和影响,从而达到减少模型参数的目的,同时保持模型的性能。这种方法的核心优势在于,它允许模型在去除一定比例的参数后,仍然能够保持接近原始模型的性能,适用于资源受限的设备上部署大型模型,比如普通的个人电脑或者移动设备。ve9品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]

相关文章