人工智能

DeepSeek宣布推出NSA 用于超快速长上下文训练和推理

字号+作者：环球市场播报来源：环球市场播报 2025-02-18 16:44 评论(创建话题) 收藏成功收藏本文

DeepSeek宣布推出NSA，用于超快速的长上下文训练和推理。据其介绍，NSA是一种与硬件一致且本机可训练的稀疏注意力机制，用于超快速的长上下文训练和推理。通'...

DeepSeek宣布推出NSA，用于超快速的长上下文训练和推理。据其介绍，NSA是一种与硬件一致且本机可训练的稀疏注意力机制，用于超快速的长上下文训练和推理。NjI品论天涯网

通过针对现代硬件的优化设计，NSA加快了推理速度，同时降低了预训练成本，而不会影响性能。NjI品论天涯网

在一般基准测试、长上下文任务和基于指令的推理上，它与完全注意力模型相匹配或优于完全注意力模型。NjI品论天涯网

NjI品论天涯网

责任编辑：刘明亮NjI品论天涯网

AI 人工智能

本网除标明“PLTYW原创”的文章外，其它文章均为转载或者爬虫(PBot)抓取；本文只代表作者个人观点，不代表本站观点，仅供大家学习参考。本网站属非谋利性质，旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的，可来信联系本站删除。本站邮箱[email protected]