精确计时在 AI 数据中心效率提升中的关键作用
创新正在加速,使愿景成为现实。由于人工智能数据中心,个性化医疗、自动驾驶空中出租车、先进的气候预报以及更多革命性功能触手可及。要利用当今 AI 训练集群的巨大计算能力,需要在分布式架构中将数千个 GPU 联网。商业和市场情报领域的领导者 Futurum 最近与 SiTime 一起发布了一份研究报告《Precision Timing 对数据中心投资回报率的关键影响》。报告指出:“......如果 AI 工作负载技术堆栈的计时部分处理不当,那么在 GPU 上投入多少资金也无法产生最佳的效率、性能和投资回报率结果。因此,时机是人工智能难题中仍然被遗漏的最关键部分。
正如报告所指出的,人工智能训练集群中的 GPU 数量一直在加速增长:
2016 年:大约 800 个 GPU。
2025 年:超过 16,000 个 GPU。
2030 年:预计每个数据中心的 GPU 将达到 100 万个,即 1000 亿美元。
这些集群中的训练效率取决于 GPU 交换数据和同步任务的速度。精确定时,包括振荡器、谐振器和网络同步器,通过三个阶段无缝地改进系统循环:计算、通信和同步。
图像
依赖精确计时的人工智能训练过程活动。
3.关键活动依赖于 AI 训练过程中的精确计时。
在专用后端网络中训练后,AI 模型会移动到用户与其交互的前端环境——这就是 AI 推理,AI 模型根据新的输入数据做出预测或决策。精确定时使后端和前端系统同步,提高推理效率。
通信
AI 训练需要 GPU 同时共享结果以保持模型的一致性,这需要比典型服务器更多的互连。随着集群的增长(从数千个 GPU 增加到数百万个),所需的高速互连数量呈指数级增长。为避免空闲 GPU 等待数据,这些连接必须以最高速度运行。
更快的数据速率也会给时序组件带来压力,这些组件必须减少抖动以保持信号完整性。例如,将数据速率加倍可将每比特时间缩短一半,抖动也需要减半。这种抖动大部分来自控制关键网络组件(如 SerDes、交换机和 NIC)的参考时钟。
图像
将数据速率提高一倍需要一半的抖动才能保持在相同的时序裕度内。
同步
分布式 AI 训练依赖于精确同步才能高效、准确地运行。当工作负载分布在多个 GPU 上时,计时可确保所有单元在同一模型版本上工作,从而防止错误并加速收敛。随着集群的扩展,同步使 GPU 保持同步,避免慢节点成为整个过程的瓶颈。
精确计时还支持开发人员用来检测网络问题和平衡工作负载的关键工具。准确的时间戳跟踪节点之间的数据流,帮助识别低效率并优化性能。振荡器的稳定性(抗热漂移和频率波动)对于在现实条件下保持这种同步至关重要。
除了计算之外,同步还可以提高存储大型人工智能模型的分布式数据库的数据中心效率。紧密协调的节点可以减少时间戳的不确定性,最大限度地减少数据包冲突和不必要的重新传输,从而降低网络拥塞并提高吞吐量。
简而言之,同步和精确定时是分布式人工智能系统的支柱。它们确保一致的模型更新、更快的融合和可扩展的性能,同时使开发人员和基础设施能够以最高效率运行。如果没有它们,人工智能训练将会变慢、容易出错且占用大量资源。
图像
网络同步通过产生更少的流量来断开关系,从而提高分布式数据库的效率。
计算
AI 服务器不仅仅依赖 GPU,其全部性能还取决于芯片的组合,每个芯片都需要来自复杂的时钟树的精确计时。这个由振荡器、缓冲器和时钟发生器组成的网络提供了 AI 计算托盘(基板)完美运行所需的所有频率。CPU 主板增加了另一层,利用实时时钟、缓冲器和时钟发生器来驱动 PCIe、DBx 和 CK440 等接口。时序必须坚如磐石、低噪音且不间断,以防止错误。构建完整、优化的时钟树通常需要多样化和全面的时序组合。
精确计时:推动人工智能创新的隐藏力量
用Microsoft首席执行官萨蒂亚·纳德拉(Satya Nadella)的话来说,“随着人工智能变得更加高效和易于使用,我们将看到它的使用量猛增,将其变成我们无法获得的商品。精确计时是更快的网络、更强大的安全性和量子人工智能等新兴突破背后的隐藏驱动力。随着以太网速度每两年翻一番,同步从服务器扩展到 GPU 和跨机架,它实现了纳秒级交换,阻止了网络攻击,并为下一波分布式和量子计算提供了动力。
阅读研究报告:精确计时对数据中心投资回报率的关键影响。
