人工智能

揭秘马斯克Colossus AI超算:集成了10万个英伟达H100 GPU

字号+作者:芯智讯 来源:芯智讯 2024-10-30 15:25 评论(创建话题) 收藏成功收藏本文

10月29日消息,YouTube视频博主ServeTheHome首次曝光了埃隆·马斯克(ElonMusk)旗下人工智能企业xAI的Colossus AI超级计算机集群,其集成了100000个英伟达(NVI'...

10月29日消息,YouTube视频博主ServeTheHome首次曝光了埃隆·马斯克(ElonMusk)旗下人工智能企业xAI的Colossus AI超级计算机集群,其集成了100000个英伟达(NVIDIA)H100GPU,号称是目前全球最强大的AI超级计算机集群。ONY品论天涯网

ONY品论天涯网

早在今年7月下旬,马斯克就在“X”平台上宣布,自己已经启动了“世界上最强大的AI集群”。这座AI集群从开始建设到完成组装仅花了122天就完成了,目前已经上线运行了约3个月。ONY品论天涯网

根据ServeTheHome曝光的信息来看,庞大的Colossus AI超级计算机集群采用的是超威电脑(Supermicro)的服务器,其基于NVIDIAHGXH100方案,每个服务器中拥有8个H100GPU,封装在Supermicro的4U通用GPU液冷系统内,为每个GPU提供简单的热插拔液冷。ONY品论天涯网

这些服务器装载在机架内,每个机架可容纳8台服务器,也就是说每个机架内有64个GPU。1U歧管夹在每个HGXH100之间,提供服务器所需的液体冷却。每个机架的底部是另一个Supermicro4U单元,这次配备了冗余泵系统和机架监控系统。ONY品论天涯网

ONY品论天涯网

△四组xAI的HGXH100服务器机架,每组可容纳八台服务器。(图片来源:ServeTheHome)ONY品论天涯网

ONY品论天涯网

△xAIColossusGPU服务器的后部访问。每台服务器有9根以太网电缆,每台服务器有4个电源。电源和液体冷却软管也可见。(图片来源:ServeTheHome)ONY品论天涯网

这些机架以8个为一组配对,每个阵列有512个GPU。每台服务器都有四个冗余电源,GPU机架的后部露出三相电源、以太网交换机和一个提供所有液体冷却的机架大小的歧管。ONY品论天涯网

Colossus集群中有超过1500个GPU机架,或近200个机架阵列。据英伟达首席执行官黄仁勋称,这200个阵列的GPU仅用了三周时间就完成了安装。ONY品论天涯网

由于AI超级集群不断训练模型的高带宽要求,xAI在其网络互连性方面提供了超大的带宽。ONY品论天涯网

目前每个显卡都有一个400GbE的专用NIC(网络接口控制器),每台服务器还有一个额外的400GbNIC。这意味着每台HGXH100服务器都有每秒3.6TB的以太网速率。整个集群都在以太网上运行,而不是InfiniBand或其他在超级计算领域标配的连接。ONY品论天涯网

ONY品论天涯网

△仰望一大片的黄色以太网电缆,将xAIColossus集群连接在一起。多层过宽的电缆线路嵌入天花板中。(图片来源:ServeTheHome)ONY品论天涯网

ONY品论天涯网

△xAI的ColossusCPU计算服务器,看起来与该站点中也广泛使用的Supermicro存储服务器完全相同。(图片来源:ServeTheHome)ONY品论天涯网

当然,像xAI旗下Grok3聊天机器人这样基于训练AI模型的超级计算机需要的不仅仅是GPU才能运行。ONY品论天涯网

Colossus集群当中的存储和CPU计算机服务器的详细信息仍未曝光,不过这些服务器也大多采用Supermicro机箱。一波又一波的NVMe转发1U服务器内部带有某种x86平台CPU,可容纳存储和CPU计算,还具有后入式液体冷却功能。ONY品论天涯网

另外,在该超级计算机集群的外面,还可以看到一些大量捆绑的特斯拉Megapack电池(每个最多可容纳3.9MWh)。ONY品论天涯网

该电池阵列的是为了应对突发停电的临时备用电源,其可以在毫秒之间快速提供供电,相比柴油发电机反应要快得多,可以使得有足够时间去启动其他备用电源。ONY品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]