数据中心GPU的使用寿命可能只有一到三年,这取决于其工作负载和利用率,据Tech Fund引述一位高级Alphabet专家的话。由于GPU负责AI训练和推理的所有繁重工作,因此它们始终承受着相当大的负载,因此比其他组件退化得更快。

云服务提供商(CSP)数据中心中用于AI工作负载的GPU利用率在60%到70%之间。根据Tech Fund报道的Alphabet一位主要生成式AI架构师的话,在这样的利用率下,GPU通常只能存活一到两年,最多三年。

我们可以验证自称是“Alphabet的AI首席架构师”的人的名字,因此我们不能100%相信他们的说法。尽管如此,我们认为这个说法是有根据的,因为现代用于AI和HPC应用的数据中心GPU消耗和散发热量超过700瓦,这对微小的硅片来说是一种实际的压力。

演讲者表示,有一种方法可以延长GPU的寿命:降低其利用率。然而,这意味着它们会贬值得更慢,回收资本得更慢,这对商业来说并不是特别有利,因此,大多数云服务提供商更倾向于以高利用率使用他们的GPU。

今年早些时候,Meta发布了一项研究,描述了其Llama 3 405B模型在由16384个Nvidia H100 80GB GPU组成的集群上进行的训练。集群的模型翻转利用率(MFU)约为38%(使用BF16),但在54天的预训练快照期间出现的419起意外中断(其中148起,占比30.1%)是由各种GPU故障(包括NVLink故障)引发的,而72起(占比17.2%)是由HBM3内存翻转引起的。

Meta的结果似乎对H100 GPU非常有利。如果GPU及其内存以Meta的速率继续出现故障,那么这些处理器的年化故障率约为9%,而三年内这些GPU的年化故障率约为27%,尽管服务一年后GPU可能更频繁地出现故障。