全球AI算力报告出炉：LLM最爱A100 Google坐拥超100万H100等效算力-品论天涯网

全球有多少AI算力？算力增长速度有多快？在这场AI“淘金热”中，都有哪些新“铲子”？AI初创企业EpochAI发布了最新全球硬件估算报告。AI的物质基础是机器学习硬件，例如图形处理单元（GPU）和张量处理单元（TPU）。DGh品论天涯网

据不完全统计，目前全球超过140款AI加速器，用于开发和部署深度学习时代的机器学习模型。DGh品论天涯网

EpochAI带来了全球算力的估计报告，利用公开信息估计了全球机器学习硬件的现状和趋势。DGh品论天涯网

DGh品论天涯网

除了传统硬件厂商英伟达、AMD等纷纷推出加速卡，一些新兴势力开始“造芯”，算力持续提升。DGh品论天涯网

DGh品论天涯网

2008至2024年全球机器学习硬件的计算能力示意图DGh品论天涯网

除了GPU，硬件类型也丰富了起来。比如，出现了专门处理张量计算的TPU（张量处理单元，TensorProcessingUnit）。DGh品论天涯网

报告的主要结论，总结如下：DGh品论天涯网

总量每年增长43%，价格下降30%。DGh品论天涯网

低精度计算成为主流。DGh品论天涯网

顶级硬件能效每1.9年翻一番。DGh品论天涯网

八年间，训练大型模型所需的处理器数量增加了20多倍。DGh品论天涯网

全球NVIDIA支持的计算能力平均每10个月翻一番。DGh品论天涯网

01关键发现：ML硬件的“摩尔定律”DGh品论天涯网

ML硬件每年增长43%DGh品论天涯网

以16位浮点运算衡量，机器学习硬件的性能以每年43%的速度增长，每1.9年翻一番。32位性能也存在类似的趋势。DGh品论天涯网

优化机器学习数字格式和张量核心提供了额外的改进。DGh品论天涯网

驱动因素还包括晶体管数量的增加和其他半导体制造技术的进步，以及针对AI工作负载的专门设计。这种改进降低了每FLOP的成本，提高了能源效率，并实现了大规模人工智能训练。DGh品论天涯网

DGh品论天涯网

机器学习硬件在不同精度下的峰值计算性能DGh品论天涯网

性价比每年提升30%DGh品论天涯网

每美元性能提升迅速，并且任何给定精度和固定性能水平的硬件每年都会便宜30%。与此同时，制造商不断推出更强大、更昂贵的硬件。DGh品论天涯网

DGh品论天涯网

单位时间单位价格下的FLOPDGh品论天涯网

低精度格式是趋势DGh品论天涯网

在使用针对人工智能计算优化的张量核心和数据格式时，GPU通常速度更快。DGh品论天涯网

与使用非张量FP32相比，TF32、张量FP16和张量INT8在总体性能趋势中平均提供约6倍、10倍和12倍的性能提升。DGh品论天涯网

一些芯片甚至实现了更大的加速。例如，H100在INT8时的速度比在FP32时快59倍。DGh品论天涯网

自推出以来，这些改进约占整体性能趋势改进的一半。随着开发人员利用这种性能提升，使用较低精度格式（尤其是张量FP16）训练的模型已经变得很常见。DGh品论天涯网

DGh品论天涯网

能效每1.9年翻一番DGh品论天涯网

根据历史数据，顶级GPU和TPU的能效每1.9年翻一番。DGh品论天涯网

就tensor-FP16格式而言，效率最高的加速器是Meta的MTIA（每瓦高达2.1x10^12FLOP/s）和NVIDIAH100（每瓦高达1.4x10^12FLOP/s）。即将推出的Blackwell系列处理器可能会更有效率，具体取决于其功耗。DGh品论天涯网

DGh品论天涯网

模型也各有所爱DGh品论天涯网

在Epoch的数据集中，NVIDIAA100是用于高引用或最先进人工智能模型的最常用的硬件，自发布以来已用于65个著名ML模型。DGh品论天涯网

其次是NVIDIAV100，用于训练55个著名模型，其次是Google的TPUv3，用于47个。DGh品论天涯网

然而，估计NVIDIAH100到2023年底的销量已超过A100，因此它可能在不久的将来成为训练模型最受欢迎的GPU。DGh品论天涯网

DGh品论天涯网

不同加速器训练的知名模型数量DGh品论天涯网

DGh品论天涯网

2019年至今，不同领域大模型训练所需算力比较DGh品论天涯网

训练集群规模猛增DGh品论天涯网

用于训练大型语言模型（LLMs）的处理器数量的显著增长。DGh品论天涯网

GoogleNASv3RL网络(2016):使用了800个GPU进行训练。DGh品论天涯网

MetaLlama3.1405B(2024):使用了16，384个H100GPU进行训练。DGh品论天涯网

这意味着在短短八年间，训练大型模型所需的处理器数量增加了20多倍。DGh品论天涯网

DGh品论天涯网

四大“算力帝国”？DGh品论天涯网

Google、微软、Meta和亚马逊拥有相当于数十万个NVIDIAH100的AI算力。DGh品论天涯网

这些计算资源既用于他们内部的AI开发，也用于云客户，包括许多顶级AI实验室，如OpenAI和Anthropic。DGh品论天涯网

Google可能拥有相当于超过一百万个H100的计算能力，主要来自他们的TPU。DGh品论天涯网

微软可能拥有最大的NVIDIA加速器库存，约为50万个H100当量。DGh品论天涯网

大量的AI计算能力由这四家公司以外的集团共同拥有，包括其他云公司如Oracle和CoreWeave，计算用户如特斯拉和xAI，以及各国政府。DGh品论天涯网

之所以重点介绍Google、微软、Meta和亚马逊，因为他们可能拥有最多的计算能力，而其他公司的数据公开较少。DGh品论天涯网

初步工作发现，截至2024年中，GoogleTPU的总算力大约是英伟达芯片的30%。DGh品论天涯网

DGh品论天涯网

英伟达每年不止翻一番DGh品论天涯网

自2019年以来，NVIDIA芯片的总可用计算能力大约每年增长2.3倍，从而能够训练越来越大的模型。DGh品论天涯网

也就是说，全球NVIDIA组成的计算能力平均每10个月翻一番。DGh品论天涯网

Hopper这一代NVIDIAAI芯片目前占其所有AI硬件总计算能力的77%。按照这种增长速度，旧的芯片型号在其推出后大约4年左右，对累计计算量的贡献往往会低于一半。DGh品论天涯网

请注意，此分析不包括TPU或其他专用AI加速器，因为这方面的数据较少。TPU可能提供与NVIDIA芯片相当的总计算能力。DGh品论天涯网

DGh品论天涯网

按芯片型号分解，发现目前大约77%的NVIDIAFLOP/s来自Hopper代际的GPU，如H100。DGh品论天涯网

目前估计NVIDIAGPU可提供4e21FLOP/s的计算能力，约相当于400万个H100。DGh品论天涯网

DGh品论天涯网

注意：这些估计基于NVIDIA的收入申报文件，并假设不同时代芯片的分布随时间变化的模式与AI集群数据集中的模式相同。DGh品论天涯网

DGh品论天涯网

英伟达23-24年季度财报DGh品论天涯网

此外，报告发现自2019年以来，计算能力的累计总和（考虑折旧）每年增长2.3倍。DGh品论天涯网

但仅考虑数据中心销售额，而忽略NVIDIA收入报告中“游戏”（Gaming）销售额带来的计算能力。DGh品论天涯网

02公开数据集DGh品论天涯网

Epoch同时公布了机器学习硬件数据集和数据分析源代码。DGh品论天涯网

DGh品论天涯网

https://epoch.ai/data/machine-learning-hardware-documentation#overviewDGh品论天涯网

详细数据分析流程，参见下列NoteBook。DGh品论天涯网

DGh品论天涯网

https://colab.research.google.com/drive/1gbbrKDKFjghUPmH-aSI9ACtb1Iuwg-cR?usp=sharingDGh品论天涯网