10万块芯片，马斯克用最大超算挑战GPT

原创翻翻果壳

昨天凌晨4点20，马斯克发推文宣称，自己刚刚启动了世界上最强的AI训练集群。

这个超算中心位于美国田纳西州，孟菲斯，使用了100,000个（不用数了！是10万个！）英伟达H100液冷GPU，通过单一RDMA网络连接。

RDMA（Remote Direct Memory Access）即远程直接内存访问，它可以把数据直接从一台计算机传输到另一台计算机，无需双方操作系统的介入。单一RDMA打造了高吞吐、低延迟的网络通信，尤其适合在大规模并行计算机集群中使用。

感谢xAI，X团队，英伟达以及其他厂商的支持｜X@elonmusk

单从规模来看，xAI孟菲斯超算中心已经在算力上跻身世界第一，不仅远远超过了OpenAI用来训练GPT-4的2.5万块A100 GPU，也超越了Aurora（60,000 个 Intel GPU）和Microsoft Eagle（14,400 个 Nvidia H100 GPU），甚至超过了此前的世界第一超算Frontier（37,888 个 AMD GPU）。

H100是英伟达专为处理大型语言模型数据而开发的芯片，每块芯片价格大概在3万美元左右，也就是说xAI这次建的超算中心仅是芯片的价值就高达30亿美元。

此前，马斯克的xAI一直不温不火，xAI推出的人工智能Grok也经常被大家吐槽不好用，但以目前的状况来看，大模型训练就是一场算力游戏，再往下深究是能源游戏，而马斯克不愿意再等了，直接把料堆满。

他表示，改进后的大模型（不出意外的话是Grok3）会在今年年底完成，届时它将会是世界上最强大的AI。

2014年的马斯克：我们正在召唤AI恶魔；2024年的马斯克：我要自己召唤AI恶魔！！｜X@JoshWhiton

其实，英伟达已经推出了新一代的H200芯片和基于Blackwell新架构的B100和B200 GPU，但是更先进的芯片要在今年年底才能出货，而且也不能一下变出几万张来，也许是为了抢在ChatGPT5之前成为世界最强，马斯克这次比平时更加大干快上。

据福布斯称，今年3月马斯克才在孟菲斯敲定这项协议，之后这座超算基地几乎立即开工。为了加快速度，马斯克从甲骨文借了2.4万块H100。

然而如前文所说，目前的大模型训练归根结底是能源游戏，而美国的电网系统相当陈旧，已经有几十年没有见证过大规模增长，尤其是AI训练的用电结构和民用商用电很不一样，经常会突然出现超高的用电波峰，极大地挑战电网的最大负荷。在这种情况下能挤出电力水力资源支持超算中心的地方所剩无几。

据孟菲斯电力、天然气和水务公司的首席执行官估计，xAI孟菲斯超算集群每小时使用的电力最高会达到150兆瓦，相当于10万户家庭的用电量。

目前孟菲斯工厂有3.2万块GPU在线，预计今年第四季度供电建设将会完成，工厂将会全速运行。

也难怪会有人质疑马斯克在撒谎，因为这个电力要求和这个建设速度实在是太不可思议了。

后来质疑马斯克的人道歉了，他发现马斯克真的办到了｜DylanPatel@X

除了用电之外，xAI超算集群预计每天至少需要100万加仑（约379万升）的水来散热。

据福布斯报道，孟菲斯市议会议员Pearl Walker上周表示：“民众很害怕。他们担心水资源可能出现问题，也担心能源供应出现问题。”她说，目前数据中心预计每天需要从孟菲斯的地下蓄水层，也就是该市的主要水源中抽取492万升（该市每天总共消耗大约5.68亿升水）。虽然他们说这只是暂时的，但新的灰水工厂的建造计划还没定，孟菲斯的公用事业部门也证实，在处理厂建成运行之前，马斯克的超级计算机将被允许使用地下蓄水层的水。

除了马斯克，OpenAI和微软也在部署更大规模的超算，这台名叫“星际之门”的超算芯片数量会达到百万级，成本预计高达1150亿美元，计划在2028年推出。

今年四月，OpenAI把微软电网搞崩溃了，据微软工程师说，他们当时正在为GPT-6部署10万个H100训练集群，不知道马斯克会不会成为第一个让10万个H100一起工作的人呢？

作者：翻翻

编辑：odette

封面图来源：datacenterdynamics

本文来自果壳，未经授权不得转载.

如有需要请联系sns@guokr.com