英伟达芯片L20 PCIE:组成集群的大模型训练效率可能比H-股票-壹米财经

事件:英伟达已经预订了中国“特供版”AI芯片H20的终端产品。根据草根调查，根据性能推广，单卡价格预计为1.3-1.4万美元。中国两家大型工厂已向英伟达下订单，购买数万片H20，并乐观地在Q2上发货。H20年出货量可能在几十万件左右，之前的市场预期应该在30万件左右。与此同时，另一个中国特供版的英伟达芯片L20 PCIE目前也在测试中，采购即将开始。

Q：H20是H800训练的60%-70%。原来H的时候，计算能力的使用效率是30%-40%。新的H20增加了带宽。组成集群的大模型训练效率可能比H800好吗？

A：国内软件培训框架相对较弱，国内主要是GPT1.0\2.0架构，H800计算性能很高，但仍不能使用数百万的培训参数，H800使用效率很低。但在H20方面，更容易获得训练参数不是很高的方面，非常适合多卡堆叠和多个人工智能服务器。

Q：大模型训练是否更容易改进芯片？

A：在国内大模型训练中，我们不能单独看硬件。一是卡，二是框架。GPT4.国内所有知识基本都包括在内，但国内3.0、4.0无法使用，正规渠道均为1.0/2.0，训练参数、性能均有限。由于底层软件有局限性，即使H100有卡也无法训练。英伟达推出H20卡，可以通过国内客户购买更多卡和A100卡实现、H800效率相同。NV可以多买卡，满足美国禁令，不会让基于GPT2.0训练模型框架的训练场所有更高的模型，一举多得。NV不会完全切断NV与国内的交流，硬件可以给，但软件层面切断，国内不能使用1000亿级培训模型的框架。不需要NVIB交换机，400G\800G光模块。因为H100 AI服务器可以使用400G光模块或800G(8张卡是4个800G光模块)。由于AI服务器数量多，光模块数量也会多。在网络方面，是NV用ib交换机，正常网络还是以太网交换机。

Q：H20产品HBM3是一个板用了3个，即计算能力为A100的30%，HBM用量相同？

A：单卡的HBM量与H800相似，H20的cowos工艺比800简单。卡的计算能力在于晶元工艺。nm越低，集成度越高，计算能力越强。就H20的计算能力而言，设计工艺一般，不如910B的计算能力设计工艺好。对于OEM来说，一些较差的制造工艺可以重复使用，成本降低。唯一的是HBM，它的价值是3倍。

Q：H20NVLINK是900GB/S，H800只有400，能达到吗？

A：NVLINK不是高端NV，非常成熟，H系列可以支持。网络带宽支持如此之大，你可以购买更多的卡，NVLINK的传输速度可以领先。现在是400G，8卡是200。

Q：训练框架是指？

A：培训模型由语言框架和软件框架支持。在国内培训语言框架方面，软件更新或技术迭代的软件版本相对较低，为1.0、2.0，海外升级到GPT4.0版。API端口不申请国内账户试用，无法体验4.0中的软件功能。美国不愿意分享制造技术来阻止A100\H100。

Q：为什么H20卡不需要covos包装？

A：看到HBM，但cowos是4或3nm以上，是高端包装，所以A100\A800\H20，制造工艺不如H100高，所以包装结构不需要cowos，成本降低。明年北美H100需求旺盛，不会为了中国的数量占用包装产能。

Q：对计算力租赁的影响？

A：过去大部分都是A\H800，但现在对于禁令，算力租赁停滞不前。现在NV推出H20后，可以建立计算中心和计算租赁中心。NVLINK、IB网络架构，多个H20，多个基于H20的人工智能服务器，构建数据中心。大多数计算能力公司都是基于cuda架构的，H20的出现将有助于计算能力租赁中心缓解数据中心建设的缺卡。

Q：是否可以理解为缓解计算能力短缺，限制计算能力价格上涨，对计算能力租赁公司不利？

A：对于计算能力公司来说，这是一种负面状态。计算能力租赁行业非常依赖卡，没有生存价值。

Q：H20能保留NVLINK吗？以前带宽要求不影响吗？

A：在限制A\H100时，网络互联带宽是有限制的。但现在11月对H800禁令，取消了带宽限制。这是美国政府的问题，如何既不给高端卡，又不切断业务往来，多买卡，达到A\H100的性能。NV将对NVLINK卡间互联做文章，堆叠卡提升性能，是一种很好的商业模式。

Q：与HW相比，H20组成集群的性能？

A：服务器卡间瓶颈，服务器瓶颈。卡间910B的互联带宽是H20的一半，卡间互联性能下降了一半。英伟达拥有一分半的IB交换机，没有替代解决方案。中国是400、800G集群交换机计算能力损失较大。

Q：A100升腾卡的性能标杆，软件有什么区别？

A：1）在软件方面，在商业软件方面，基本的高端软件是海外软件公司。国内企业很难适应兼容性。NV将在发卡前进行相应的性能兼容性测试和优化，因此NV最适合在销售平台上使用。

2)国内卡客户在互联网公司，不使用商业软件，而是开源软件开发，因为每个互联网公司都有不同的商业方式，会做一些开发。他们使用互联网自主研究平台，迁移适应国内卡，迁移成本相对较低。我们非常关注互联网行业，国内芯片行业也非常关注它，因为在NV中，互联网是最容易切入的，没有商业软件的影响，是自主研发的。软件开发周期比硬件长得多。

Q：17号禁令下单后，H20订单会转换吗？还是重新下单？

A：禁令取消后，NV取消。因此，H20的订单是重新开始的，不能同等替代。

Q：阉割版上市有用吗？客户需要4多长时间才能适应业务？

A：英伟达的卡在互联网公司，适合小批量-大批量，需要半年时间，从引入测试到小批量是半年。卡的阶段是英伟达的设计，自己测试，但没有下面的OEM制造商，交付给互联网引入测试，下面的服务器OEM工厂小批量生产调试，然后做小批量供应，与互联网同步，半年采购。

Q：从训练模型的角度来看，我们觉得有很多说法可以看到INT8、FP16甚至FP32。国内外卡的计算能力主要取决于哪个指标？

Q：主要是FP32和FP64。FP16由于设计工艺原因在中国无法实现。真正看浮点操作，还是FP32和FP64。英伟达基本上不做FP16浮点操作参数。FP16仍然可以用于国内模型框架，但一旦训练参数激增，即FP32和FP64。

Q：与H100等先进芯片相比，NV变通方案的成本会上升多少？

A：运营成本的上升将与卡的采购量成正比。以一个流行的例子来看，H100卡的运营成本不同于H800。在空间、功耗和人员成本方面，卡的成本非常高。H20的功耗低于H100，但远高于A100。从H20的角度来看，未来大规模使用的成本将增加A100的3-4倍，低于H100。

Q：H20使用液冷方案吗？

A：H20是风冷、液冷还是H100、750w功耗。H20加2-3张卡，功耗是A100的3-4倍。

Q：H20组网会比原H800组网增加功耗和散热需求吗？

A：由于计算能力和功耗低，H20的散热会低于H800。