北大DeepSeek论文或预定ACL Best Paper 梁文锋署名-品论天涯网

重磅惊喜！北大与DeepSeek合作，并由梁文锋亲自提交到arXiv的论文，将有望斩获ACL2025最佳论文（ACLBestPaper）。要知道今年的ACL格外的卷，总投稿数高达8000多篇，创历史之最，而ACL2024总投稿数仅为4407，几乎翻倍！6A2品论天涯网

6A2品论天涯网

论文地址：6A2品论天涯网

https://arxiv.org/abs/2502.110896A2品论天涯网

6A2品论天涯网

原生稀疏注意力（NativeSparseAttention，NSA）论文的MetaReview的OA分数已经确认得到了4.5分，这是一个相当高的分数，满分为5分。6A2品论天涯网

6A2品论天涯网

按照ACL的OA评分标准，4.5分已经获得了BorderlineAward，也就是说非常有望获得ACL这届的最佳论文。6A2品论天涯网

6A2品论天涯网

这篇论文的发布在当时引起广泛的社区关注，NSA把AI行业的焦点从‘模型规模竞赛’拉向‘算力效率竞赛’，堪称2025年上半年最具杠杆效应的底层技术突破之一。6A2品论天涯网

DeepSeek-R1的发布引发了AI行业的‘价值重估’，DeepSeek用‘低成本+同效能’的开源技术撼动了当时AI界人们固有的‘有卡才行’的认知。6A2品论天涯网

6A2品论天涯网

而NSA技术进一步实现了‘长下文的算力平权’，让开源模型也能达到闭源模型（ChatGPT、Gemini等）才能满足的上下文窗口。6A2品论天涯网

NSA将长文本处理速度提高了最多11倍，该方法结合了算法创新和改进的硬件，提高效率而不用牺牲硬件性能。6A2品论天涯网

NSA的出现，是对传统注意力机制的一次革新，传统模型依赖于全注意力机制，将每个Token与其他所有Token进行比较。6A2品论天涯网

传统机制虽然对于短篇文本有效，但随着文本长度的增加，这一过程会显著变慢，并且计算成本变得非常高。6A2品论天涯网

NSA是DeepSeek-R1‘爆火出圈’后的第一篇论文，同时在NSA发布一周后，DeepSeek进行了更广为人知的‘开源周’活动分享。6A2品论天涯网

6A2品论天涯网

硬件对齐与原生可训练稀疏注意力6A2品论天涯网

为什么要革新传统的注意力机制？6A2品论天涯网

长文本处理能力是新一代语言模型的关键需求，但传统注意力机制带来的巨大计算开销一直是一个棘手的问题。6A2品论天涯网

在这种背景下，稀疏注意力机制展现出了提升计算效率同时又能保持模型性能的巨大潜力。6A2品论天涯网

北大和DeepSeek提出名为NSA的创新性稀疏注意力机制，它能够原生支持训练，通过将算法创新与硬件优化相结合，实现了高效的长文本处理。6A2品论天涯网

NSA采用了动态分层的稀疏策略：在保证全局信息获取的同时，还能够精确捕捉局部细节，这得益于其巧妙结合了粗粒度的令牌压缩和细粒度的令牌选择。6A2品论天涯网

NSA架构如下图所示，通过三条并行的注意力分支来处理输入序列。对于每一个查询（query），前面的键（key）和值（value）会分别被处理成三种不同的注意力方式：6A2品论天涯网

压缩注意力（CompressedAttention），用于捕捉粗粒度的整体模式；6A2品论天涯网

选择性注意力（SelectedAttention），专注于重要的词块；6A2品论天涯网

滑动注意力（SlidingAttention），负责获取局部上下文信息。6A2品论天涯网

每条分支所生成的不同注意力模式。图中的绿色区域表示需要计算注意力分数的部分，而白色区域则是可以跳过、不计算的区域。6A2品论天涯网

6A2品论天涯网

NSA的主要创新点有两个：一是通过精心设计的算法平衡了计算密度，并针对现代硬件做了专门优化，显著提升了运行速度；二是实现了端到端的训练模式，在确保模型性能的前提下大幅降低了预训练的计算量。6A2品论天涯网

如图1所示，实验结果显示：采用NSA预训练的模型在通用基准测试、长文本处理和指令推理等多个任务上，性能均达到或超过了使用完整注意力机制的模型。6A2品论天涯网

此外，在处理64k长度序列时，无论是decoding、前向传播还是反向传播，NSA都展现出了显著的速度优势，充分证明了它在模型全生命周期中的高效性。6A2品论天涯网

6A2品论天涯网

该论文第一作者为北京大学计算机学院硕士生袁境阳（北京大学，导师为张铭教授），合作者包括高华佐（DeepSeek），代达劢（DeepSeek），罗钧宇（北京大学）、肖之屏（华盛顿大学）等。6A2品论天涯网

通讯作者为梁文锋（DeepSeek），曾旺丁（DeepSeek），张铭教授（北京大学）。6A2品论天涯网

6A2品论天涯网

录用论文一览6A2品论天涯网

除了NSA论文外，北京大学张铭教授团队的其他论文也同样上榜。6A2品论天涯网

6A2品论天涯网

数据为中心视角下大模型的高效后训练6A2品论天涯网

论文名：ASurveyonEfficientLLMTraining：FromData-centricPerspectives6A2品论天涯网

这是首个从数据中心视角系统性剖析LLM高效后训练的综述。6A2品论天涯网

该文创新性地提出了一个涵盖数据选择、质量增强、合成数据生成、数据蒸馏与压缩及自演化数据生态的分类框架，深入总结了各领域代表性方法并展望未来研究方向，旨在为学界和业界探索大规模模型训练中数据利用的最大潜力提供关键启示。6A2品论天涯网

6A2品论天涯网

该论文作者包含罗钧宇（北京大学，导师为张铭教授），吴伯涵（北京大学），罗霄（UCLA），肖之屏（华盛顿大学），靳轶乔（佐治亚理工），涂荣成（南洋理工大学），尹楠（HKUST），王一帆（对外经贸），袁境阳（北京大学），琚玮（四川大学），张铭（北京大学，通讯作者）。6A2品论天涯网

首个金融多模态评估数据集FinMME6A2品论天涯网

论文名：FinMME：AFinancialMulti-ModalEvaluationDataset6A2品论天涯网

为应对金融领域多模态大模型评估的迫切需求，并提供高质量的多模态推理验证数据集。6A2品论天涯网

北京大学Dlib实验室联合香港科技大学等重磅推出了首个大规模、高质量的金融多模态评估数据集FinMME。6A2品论天涯网

该数据集包含超过11，200个金融研究样本，覆盖18个核心金融领域和10种主要图表类型，并引入独创的FinScore评估系统。6A2品论天涯网

实验结果表明，即便是顶尖模型如GPT-4o在FinMME上也面临显著挑战，凸显了其在衡量金融多模态理解与推理能力方面的深度与价值。6A2品论天涯网

6A2品论天涯网

论文作者包含罗钧宇（北京大学，导师为张铭教授），寇智卓（HKUST），杨礼铭（北京大学），罗霄（UCLA），黄进晟（北京大学），肖之屏（华盛顿大学），彭靖姝（HKUST），刘程中（HKUST），吉嘉铭（HKUST），刘譞哲（北京大学），韩斯睿（HKUST），张铭（北京大学，通讯作者），郭毅可（HKUST）。6A2品论天涯网

大语言模型中的数学推理增强方法6A2品论天涯网

该论文涉及大语言模型中的数学推理增强方法。思维链（CoT）提示已成为激发大语言模型（LLM）推理能力的核心方法，但其生成的推理步骤中存在难以检测的‘幻觉’。6A2品论天涯网

现有的消除大语言模型幻觉的方法如过程奖励模型（ProcessRewardModel）或自一致性校验如同黑箱操作，难以提供可验证的证据，制约了纠正幻觉的能力。6A2品论天涯网

论文提出一种创新的Safe验证框架。区别于传统模糊评分机制，Safe创新性地证明验证定理的正确性，从根本上识别并消除幻觉。实验表明，本论文提出的Safe验证框架在多个数学模型和数据集上实现显著性能提升，实现神经符号系统在数学推理中的有机融合。6A2品论天涯网

本研究回归了形式数学语言的初衷——为人类易错的证明过程提供坚实保障。Safe框架为数学教育、代码生成等高风险领域提供了可验证的推理解决方案。6A2品论天涯网

该论文第一作者为数据科学与工程所博士生刘成武（北京大学，导师为张铭教授），合作者包括袁野（北京大学）、尹伊淳（华为诺亚方舟实验室）、许妍（华为诺亚方舟实验室）、许鑫（香港科技大学）、陈造宇（香港理工大学）、尚利峰（华为诺亚方舟实验室）、刘群（华为诺亚方舟实验室）、张铭（北京大学，通讯作者）。6A2品论天涯网

基于大语言模型的交通流量预测方法6A2品论天涯网

论文名：EmbracingLargeLanguageModelsinTrafficFlowForecasting6A2品论天涯网

交通流量预测旨在基于历史交通状况和路网结构，预测未来交通流量，这是智能交通系统中的关键问题。6A2品论天涯网

现有方法主要聚焦于捕捉和利用时空依赖性来进行流量预测，尽管取得了一定进展，但在面对测试时交通条件变化时表现不足。6A2品论天涯网

针对这一挑战，本文提出了一种基于大语言模型（LLM）的新方法——LEAF（LargeLanguageModelEnhancedTrafficFlowPredictor）。6A2品论天涯网

与以往工作主要使用LLM的生成能力来直接生成未来交通流量序列不同，LEAF使用LLM的判别能力。6A2品论天涯网

具体来说，LEAF采用双分支结构，分别通过图结构和超图结构捕捉不同的时空关系。两个分支在预训练阶段独立训练，并在测试时生成不同的预测结果。6A2品论天涯网

随后，利用大语言模型从这些预测中选择最有可能的结果，并通过排序损失函数作为学习目标来增强两个分支的预测能力。在多个数据集上的广泛实验验证了LEAF的有效性，证明其在流量预测任务中能够更好地适应测试环境变化。6A2品论天涯网

6A2品论天涯网

该论文第一作者为数据科学与工程所博士生赵禹昇（北京大学，导师为张铭教授），合作者包括罗霄（加州大学洛杉矶分校）、温浩珉（卡耐基梅隆大学）、肖之屏（华盛顿大学）、琚玮（四川大学），张铭（北京大学，通讯作者）。6A2品论天涯网

作者介绍6A2品论天涯网

袁境阳6A2品论天涯网

6A2品论天涯网

北京大学计算机学院研究生，导师为张铭教授。6A2品论天涯网

主要研究方向是高效大语言模型和稀疏注意力机制，曾获北京市优秀毕业生、北京大学优秀毕业生等称号。6A2品论天涯网

罗钧宇6A2品论天涯网

6A2品论天涯网

北京大学计算机学院博士生，导师为张铭教授。6A2品论天涯网

他的研究方向关注于高效的LLM、LLM后训练、自适应学习等。6A2品论天涯网

在ICML，CVPR，ACL，TPAMI等顶级刊物上以第一作者发表多篇文章。6A2品论天涯网

赵禹昇6A2品论天涯网

6A2品论天涯网

北京大学计算机学院研究生，导师为张铭教授。6A2品论天涯网

研究方向包括图神经网络、时空预测、多模态等，关注测试数据的分布偏移问题。6A2品论天涯网

刘成武6A2品论天涯网

6A2品论天涯网

北京大学计算机学院数据科学与工程所博士生，导师是DLIB实验室的张铭教授。6A2品论天涯网

他的研究方向是自然语言处理、大语言模型的数学推理和自动定理证明。6A2品论天涯网

他在北京大学外国语学院获得了文学学士学位，并修读获得了信息科学技术学院的计算机科学与技术双学位。6A2品论天涯网

张铭6A2品论天涯网

6A2品论天涯网

北京大学计算机学院二级教授，博士生导师，北大-安克大模型算法与应用联合实验室主任。2021年CCF杰出教育奖获得者。6A2品论天涯网

张铭教授本硕博都毕业于北京大学计算机系，长期致力于机器学习、图神经网络、知识图谱、文本挖掘、语言模型、推荐系统、教育大数据、科学智能等相关研究。6A2品论天涯网

先后主持国家重点研发计划课题、国家自然科学基金等前沿项目，发表科研论文300多篇，谷歌学术被引用21800余次。合作提出的LINE模型是图机器学习领域著名的的基准模型，目前单篇被引用6700余次。6A2品论天涯网

获得了机器学习顶级会议ICML2014唯一的最佳论文奖，以及WWW2016最佳论文提名。6A2品论天涯网

在近期利用率仅为20%左右的几大顶会中，张铭教授的课题组的中概率都在50%以上。6A2品论天涯网

其中，在ICML2025中了4篇论文。6A2品论天涯网

6A2品论天涯网

AAAI2025也是5篇上榜。6A2品论天涯网

6A2品论天涯网

还有ICLR1篇，KDD1篇，NAACL1篇主会2篇Finding。6A2品论天涯网

参考资料：6A2品论天涯网

https://luo-junyu.github.io6A2品论天涯网

https://pkudlib.github.io/6A2品论天涯网

https://mp.weixin.qq.com/s/nvjSyUBR4DBBQgF1e1OwsQ6A2品论天涯网