英伟达3
2024-03-20 12:52:03
描述
申万宏源通信:英伟达3.18发布了最新的GB200系列计算网络系统(结构参考今天上午的示意图),显著提高了计算能力性能,同时采用了铜连接和光连接方案,市场讨论了“光”和“铜”的延伸路径。1)现状:GB200(包括之前的GH200)系列被N
[本文共字,阅读完需要分钟]

申万宏源通信:英伟达3.18发布了最新的GB200系列计算网络系统(结构参考今天上午的示意图),显著提高了计算能力性能,同时采用了铜连接和光连接方案,市场讨论了“光”和“铜”的延伸路径。

1)现状:GB200(包括之前的GH200)系列被NV定义为“superchip“与传统服务器相比,该系统具有较大的粒度。机柜内36或72个GPU的连接主要是电信号,NVLink和InfiniBand同时应用于外部。

铜与光的选择本质上是平衡距离和速度的选择。

GB200是否降低了光通信的重要性?我们推测:

参照GH200和GB200NVL72系统的目标场景,更多针对英伟达定义的“大/云/平台客户”AI Cloud/AI Factory“,预计存在的形式是[多机柜],这种跨机柜≥800G网络,电损巨大,光通信刚需;

从液冷/供电/运维的角度来看,中小客户仅使用一套GB200系统的可行性有待商榷。也许传统服务器或云是更好的选择。(也是NV差异化策略)

从训推的角度来看,GB200的设计目标是:单机柜可以应对AI推理,有利于云的虚拟化布局。

GB200系统的最小单元是机柜,推理性能大大提高,可以更好地处理大量参数、跨模态和大量token、多并发推理场景,避免大量单GPU分布式。云IDC场景可以更好地应对未来的大量推理需求(参考AWS)、MSFT评价)。

4)市场对铜连接增加的了解是由于:

此前H100系列的机柜内部没有互联,而是单独配置了一套网络机柜,再加上芯片速度高,所以短距离铜线很少;

而GB200系列,虽然机柜内铜线较多,但大中NVLink域的光互联+IB扩容的光互联需求非常大,再加上未来的硅光,chip to chip光I/O等路径,已经很清楚了!