英特尔、Google、微软、Meta等八家科技巨头正在建立一个新的行业小组,即超加速器链接(UALink)推广小组,以指导数据中心内连接AI加速器芯片的组件的发展。
UALink推广小组周四宣布成立,其成员还包括AMD、惠普企业、博通和思科。该小组提出了一个新的行业标准,用于连接服务器中越来越多的AI加速器芯片。广义上讲,AI加速器是从GPU到为加速AI模型的训练、微调和运行而定制设计的解决方案的芯片。
AMD数据中心解决方案总经理ForrestNorrod在周三的简报中对记者表示:“行业需要一个可以快速推进的开放标准,在开放的[格式]中,允许多家公司为整个生态系统增加价值。”“行业需要一个标准,允许创新以不受任何单一公司束缚的快速步伐进行。”
提议的标准的第一个版本,UALink1.0,将在单个计算“pod”中连接多达1024个AI加速器——仅限GPU。(该小组将pod定义为服务器中的一个或几个机架。)UALink1.0基于“开放标准”,包括AMD的无限架构,将允许AI加速器附加的内存之间进行直接加载和存储,并且与现有的互连规格相比,总体上将提高速度并降低数据传输延迟。
该小组表示,将在第三季度创建一个联盟,UALink联盟,以监督UALink规范的未来发展。UALink1.0将在同期向加入联盟的公司提供,更高带宽的更新规范UALink1.1,计划在2024年第四季度推出。
UALink的首批产品将在“未来几年”推出,Norrod说。
明显缺席该小组成员名单的是NVIDIA,它是迄今为止最大的AI加速器生产商,估计占有80%到95%的市场份额。NVIDIA拒绝对此发表评论。但不难看出为什么这家芯片制造商不热衷于支持基于竞争对手技术的规范。
首先,NVIDIA为其数据中心服务器内的GPU提供了自己的专有互连技术。该公司可能不太愿意支持基于竞争对手技术的标准。
然后是NVIDIA从巨大的实力和影响力位置运营的事实。
在NVIDIA最近一个财季(2025年第一季度)中,包括其AI芯片销售在内的数据中心销售额比去年同期增长了400%以上。如果NVIDIA继续目前的发展轨迹,它将在今年某个时候超过苹果,成为世界上最有价值的公司。
因此,简单来说,如果NVIDIA不想参与,它就不必参与。
至于亚马逊网络服务(AWS),这是唯一没有为UALink做出贡献的公共云巨头,它可能处于“观望”模式,因为它正在削减其各种内部加速器硬件努力。也可能是AWS,凭借对云服务市场的控制,没有看到反对NVIDIA的战略意义,NVIDIA为其客户提供了大部分GPU。
AWS没有回应TechCrunch的评论请求。
事实上,UALink的最大受益者——除了AMD和英特尔——似乎是微软、Meta和Google,它们已经花费了数十亿美元购买NVIDIAGPU来驱动它们的云并训练它们不断增长的AI模型。所有人都希望摆脱一个他们视为在AI硬件生态系统中过于主导的供应商。
Google拥有用于训练和运行AI模型的定制芯片,TPU和Axion。亚马逊拥有几个AI芯片家族。微软去年加入了Maia和Cobalt的竞争。Meta正在完善自己的加速器系列。
与此同时,微软及其密切合作伙伴OpenAI据报道计划至少花费1000亿美元用于一台超级计算机,用于训练AI模型,该计算机将配备未来的Cobalt和Maia芯片。这些芯片将需要一些东西将它们连接起来——也许它将是UALink。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】