英伟达最强通用大模型Nemotron-4登场！15B击败62B，目标单张A100/H100可跑-品论天涯网

声明:本文来自于微信公众号新智元（ID:AI_era），作者:桃子，授权站长之家转载发布。Nuc品论天涯网

最近，英伟达团队推出了全新的模型Nemotron-4，150亿参数，在8T token上完成了训练。Nuc品论天涯网

值得一提的是，Nemotron-4在英语、多语言和编码任务方面令人印象深刻。Nuc品论天涯网

Nuc品论天涯网

论文地址:https://arxiv.org/abs/2402.16819Nuc品论天涯网

在7个评估基准上，与同等参数规模的模型相比，Nemotron-415B表现出色。Nuc品论天涯网

甚至，其性能超过了4倍大的模型，以及专用于多语言任务的模型。Nuc品论天涯网

Nuc品论天涯网

如今LLM已经非常多了，英伟达新发布的语言模型，有何不同?Nuc品论天涯网

打造最强通用LLM，单个A100/H100可跑Nuc品论天涯网

最近发表的LLM研究受到了Chinchilla模型「缩放定律」的启发——给定固定计算预算，数据和模型大小一同优化。Nuc品论天涯网

而过去，研究主要针对模型大小进行缩放。Nuc品论天涯网

研究表明，给定两个数据分布类似的IsoFLOP GPT模型，一个是在1.4万亿token上的65亿参数模型，另一个是3000亿token上的2800亿参数模型。Nuc品论天涯网

显然，65B的模型在下游任务上的准确性更高。Nuc品论天涯网

Nuc品论天涯网

从推理的角度来看，将计算分配给更多数据的训练，而不是增加模型大小特别有吸引力，可以减少延迟和服务模型所需的计算量。Nuc品论天涯网

因此，语言建模训练工作的主要焦点已转向从CommonCrawl等公共资源中，收集高质量的数万亿token数据集。Nuc品论天涯网

对此，英伟达研究人员提出了Nemotron-415B，来延续这一趋势。Nuc品论天涯网

具体来说，Nemotron-415B是在8万亿个token，包括英语、多语种、编码文本的基础上进行训练。Nuc品论天涯网

英伟达称，Nemotron-415B的开发目的:Nuc品论天涯网

成为能在单个英伟达A100或H100GPU上运行的最佳「通用大模型」。Nuc品论天涯网

架构介绍Nuc品论天涯网

Nemotron-4采用了标准的纯解码器Transformer架构，并带有因果注意掩码。Nuc品论天涯网

核心的超参数，如表1所示。Nuc品论天涯网

Nuc品论天涯网

Nemotron-4有32亿个嵌入参数和125亿个非嵌入参数。Nuc品论天涯网

研究人员使用旋转位置编码（RoPE）、SentencePiece分词器、MLP层的平方ReLU激活、无偏置项(bias terms)、零丢失率，以及无限制的输入输出嵌入。Nuc品论天涯网

通过分组查询关注（GQA），可实现更快的推理和更低的内存占用。Nuc品论天涯网

数据Nuc品论天涯网

研究人员在包含8万亿个token的预训练数据集上训练Nemotron-415B。Nuc品论天涯网

分为三种不同类型的数据:英语自然语言数据（70%）、多语言自然语言数据(15%)和源代码数据(15%)。Nuc品论天涯网

Nuc品论天涯网

英语语料库由来自各种来源和领域的精选文档组成，包括网络文档、新闻文章、科学论文、书籍等。Nuc品论天涯网

代码和多语言数据包括一组多样化的自然语言和编程语言。Nuc品论天涯网

研究人员发现，从这些语言中适当地采样token是在这些领域获得高准确度的关键。Nuc品论天涯网

此外，研究人员分别在图3和图4中共享预训练数据集中用于代码和多语言标记的分布。Nuc品论天涯网

Nuc品论天涯网

预训练Nuc品论天涯网

Nemotron-4使用384个DGX H100节点进行训练。每个节点包含8个基于英伟达Hopper架构的H10080GB SXM5GPU。Nuc品论天涯网

在执行无稀疏性的16位浮点（bfloat16）算术时，每个H100GPU的峰值吞吐量为989teraFLOP/s。Nuc品论天涯网

每个节点内，GPU通过NVLink和NVSwitch（nvl）连接;GPU到GPU的带宽为900GB/s(每个方向450GB/s)。Nuc品论天涯网

每个节点都有8个NVIDIA Mellanox400Gbps HDR InfiniBand主机通道适配器（HCA），用于节点间通信。Nuc品论天涯网

研究人员使用8路张量并行和数据并行的组合来训练模型，还使用了分布式优化器，将优化器状态分片到数据并行副本上。随着批大小的增加，数据并行度从96增加到384。Nuc品论天涯网

表2总结了批大小提升的3个阶段，包括每次迭代时间和模型FLOP/s利用率（MFU）。MFU量化了GPU在模型训练中的利用效率。训练大约在13天内完成。Nuc品论天涯网

Nuc品论天涯网

再训练Nuc品论天涯网

与最近的研究类似，研究人员发现在模型训练结束时，切换数据分布和学习率衰减时间表，可以极大地提高模型质量。Nuc品论天涯网

具体来说，在对整个8T预训练数据集进行训练之后，使用相同的损失目标，并对与预训练token相比的较少的token进行持续训练。Nuc品论天涯网

在这一额外的继续训练阶段，利用两种不同的数据分布。Nuc品论天涯网

第一个分布是，从持续训练期间大部分token采样。它利用在预训练期间已经引入的token，但其分布将更大的采样权重放在更高质量来源上。Nuc品论天涯网

第二个分布，引入了少量基准式对齐示例，以更好地让模型在下游评估中回答此类问题，同时还增加来自模型性能较低区域的数据源的权重。Nuc品论天涯网

实验结果Nuc品论天涯网

研究人员在涵盖各种任务和领域的下游评估领域评了 Nemotron-415B。Nuc品论天涯网

常识推理Nuc品论天涯网

作者使用LM-Evaluation Harness在所有上述任务中评估Nemotron-415B。Nuc品论天涯网

表3显示了Nemotron-415B在这组不同的任务中实现了最强的平均性能。Nuc品论天涯网

Nuc品论天涯网

热门的综合基准Nuc品论天涯网

从表4可以看出，Nemotron-415B在现有模型中获得了BBH的最佳分数，增长了近7%。Nuc品论天涯网

此外，Nemotron-4在BBH基准测试中明显优于LLaMA-270B模型，其中LLaMA-270B的得分为51.2，Nemotron-4的得分为58.7。Nuc品论天涯网

Nemotron-415B另外还获得了极具竞争力的MMLU分数。Nuc品论天涯网

Nuc品论天涯网

数学和代码Nuc品论天涯网

表5重点介绍了Nemotron-415B在数学和代码任务上的性能。Nuc品论天涯网

具体来说，在数学推理上，Nemotron-415B表现强劲，得分与Gemma7B相似，但落后于Baichuan-2和QWEN等模型。Nuc品论天涯网

在代码任务中，Nemotron-4的性能与QWEN14B相当，但略落后于Gemma7B。Nuc品论天涯网

在这两种类型的任务中，Nemotron-415B的性能均优于Mistral7B和LlaMA-213B/34B。Nuc品论天涯网

Nuc品论天涯网

几乎所有类似规模的开放模型都只根据Python相关任务的性能来确定其代码能力，而忽略了对其他编程语言能力的评估。Nuc品论天涯网

在表6中，展示了Nemotron-415B在Multiple-E基准上的结果，涉及11种不同的编程语言。Nuc品论天涯网

结果发现，Nemotron-415B在各种编程语言中都有很强的编码性能，平均性能优于Starcoder和Mistral7B。Nuc品论天涯网

研究人员特别强调了Nemotron-415B在Scala、Julia和R等低资源编程语言上的卓越性能。Nuc品论天涯网

Nuc品论天涯网

多语言Nuc品论天涯网

分类Nuc品论天涯网

在表7中，可以清楚地看到Nemotron-4在所有模型中实现了最佳性能，在4次设置中实现了近12%的改进。Nuc品论天涯网

Nuc品论天涯网

生成Nuc品论天涯网

表8显示Nemotron-415B实现了最佳性能。Nuc品论天涯网

令人印象深刻的是，Nemotron-415B能够显著改进下一个最佳模型PaLM62B-cont。Nuc品论天涯网

Nuc品论天涯网

表9显示了MGSM上的性能，进一步证明了Nemotron-415B令人印象深刻的多语言能力。Nuc品论天涯网

在这项评估数学和多语言能力交集的挑战性任务中，Nemotron-415B在比较模型中实现了最佳性能，并且比最接近的分数提高了近30%。Nuc品论天涯网

Nuc品论天涯网

机器翻译Nuc品论天涯网

如表10所示，Nemotron-415B的性能远远优于LLaMA-213B和Baichuan-213B，性能分别提高了90.2%和44.1%。Nuc品论天涯网

Nemotron-415B不仅在中文翻译成英文方面表现出色，而且在中文直接翻译成其他语言方面也能取得令人印象深刻的效果。Nuc品论天涯网

这种能力凸显了Nemotron-415B对广泛的自然语言的深刻理解。Nuc品论天涯网

Nuc品论天涯网

参考资料:Nuc品论天涯网

https://arxiv.org/abs/2402.16819Nuc品论天涯网