在人工智能领域,随着生成式AI模型的快速扩张,对更强大硬件的需求日益增长,这正在推动现有数据中心基础设施的极限。微软Azure的首席技术官Mark Russinovich指出,随着数据中心达到电网的极限,AI训练的分布式需求变得日益迫切。
现代AI数据中心,如埃隆·马斯克的公司特斯拉或xAI所建设的数据中心,可以容纳多达10万个英伟达H100或H200 GPU。随着美国巨头竞相训练行业最佳AI模型,他们需要更多的AI处理器协同工作。因此,数据中心正在变得更加耗能,这不仅是因为处理器数量的增加,也因为这些处理器的功率消耗以及冷却所需的电力。结果,消耗数吉瓦电力的数据中心可能很快就会成为现实。
面对这些挑战,微软正在对能源基础设施进行重大投资。最近,公司签署了一项协议,重新开放三里岛核电站,以确保更稳定的能源供应。在此之前,公司已投入数十亿美元用于AI基础设施的发展。但微软Azure CTO表示,这可能还不够,在某些时候,大型公司将不得不连接多个数据中心来训练最复杂的模型。
Russinovich告诉Semafor,这种情况是不可避免的。在某些情况下,可能唯一的可行方式是跨数据中心,甚至跨区域进行AI训练。他表示,我们可能不会离得太远。
这种方法的纸面解决方案可以解决电网日益增长的压力,并克服与集中式AI训练相关的技术挑战。然而,这种策略带来了重大的技术挑战,尤其是在确保数据中心保持同步并维持有效AI训练所需的高通信速度方面。要在多个地点管理这一问题,数据中心需要在相对靠近的位置,并且需要微软及其合作伙伴OpenAI内部多个团队的协作,这意味着必须在微软内部开发去中心化的AI训练方法。
去中心化AI训练方法的一个问题是,一旦开发出来,它们可以提供一种减少对最先进GPU和大规模数据中心的依赖的潜在解决方案。这可能会降低小型公司和个人训练AI模型进入门槛,无需庞大的计算资源。有趣的是,中国研究人员已经使用去中心化方法在多个数据中心训练他们的AI模型。然而,细节很少。