事件:英伟达已经预订了中国“特供版”AI芯片H20的终端产品。根据草根调查,根据性能推广,单卡价格预计为1.3-1.4万美元。中国两家大型工厂已向英伟达下订单,购买数万片H20,并乐观地在Q2上发货。H20年出货量可能在几十万件左右,之前的市场预期应该在30万件左右。与此同时,另一个中国特供版的英伟达芯片L20 PCIE目前也在测试中,采购即将开始。
Q:H20是H800训练的60%-70%。原来H的时候,计算能力的使用效率是30%-40%。新的H20增加了带宽。组成集群的大模型训练效率可能比H800好吗?
A:国内软件培训框架相对较弱,国内主要是GPT1.0\2.0架构,H800计算性能很高,但仍不能使用数百万的培训参数,H800使用效率很低。但在H20方面,更容易获得训练参数不是很高的方面,非常适合多卡堆叠和多个人工智能服务器。
Q:大模型训练是否更容易改进芯片?
A:在国内大模型训练中,我们不能单独看硬件。一是卡,二是框架。GPT4.国内所有知识基本都包括在内,但国内3.0、4.0无法使用,正规渠道均为1.0/2.0,训练参数、性能均有限。由于底层软件有局限性,即使H100有卡也无法训练。英伟达推出H20卡,可以通过国内客户购买更多卡和A100卡实现、H800效率相同。NV可以多买卡,满足美国禁令,不会让基于GPT2.0训练模型框架的训练场所有更高的模型,一举多得。NV不会完全切断NV与国内的交流,硬件可以给,但软件层面切断,国内不能使用1000亿级培训模型的框架。不需要NVIB交换机,400G\800G光模块。因为H100 AI服务器可以使用400G光模块或800G(8张卡是4个800G光模块)。由于AI服务器数量多,光模块数量也会多。在网络方面,是NV用ib交换机,正常网络还是以太网交换机。
Q:H20产品HBM3是一个板用了3个,即计算能力为A100的30%,HBM用量相同?
A:单卡的HBM量与H800相似,H20的cowos工艺比800简单。卡的计算能力在于晶元工艺。nm越低,集成度越高,计算能力越强。就H20的计算能力而言,设计工艺一般,不如910B的计算能力设计工艺好。对于OEM来说,一些较差的制造工艺可以重复使用,成本降低。唯一的是HBM,它的价值是3倍。
Q:H20NVLINK是900GB/S,H800只有400,能达到吗?
A:NVLINK不是高端NV,非常成熟,H系列可以支持。网络带宽支持如此之大,你可以购买更多的卡,NVLINK的传输速度可以领先。现在是400G,8卡是200。
Q:训练框架是指?
A:培训模型由语言框架和软件框架支持。在国内培训语言框架方面,软件更新或技术迭代的软件版本相对较低,为1.0、2.0,海外升级到GPT4.0版。API端口不申请国内账户试用,无法体验4.0中的软件功能。美国不愿意分享制造技术来阻止A100\H100。
Q:为什么H20卡不需要covos包装?
A:看到HBM,但cowos是4或3nm以上,是高端包装,所以A100\A800\H20,制造工艺不如H100高,所以包装结构不需要cowos,成本降低。明年北美H100需求旺盛,不会为了中国的数量占用包装产能。
Q:对计算力租赁的影响?
A:过去大部分都是A\H800,但现在对于禁令,算力租赁停滞不前。现在NV推出H20后,可以建立计算中心和计算租赁中心。NVLINK、IB网络架构,多个H20,多个基于H20的人工智能服务器,构建数据中心。大多数计算能力公司都是基于cuda架构的,H20的出现将有助于计算能力租赁中心缓解数据中心建设的缺卡。
Q:是否可以理解为缓解计算能力短缺,限制计算能力价格上涨,对计算能力租赁公司不利?
A:对于计算能力公司来说,这是一种负面状态。计算能力租赁行业非常依赖卡,没有生存价值。
Q:H20能保留NVLINK吗?以前带宽要求不影响吗?
A:在限制A\H100时,网络互联带宽是有限制的。但现在11月对H800禁令,取消了带宽限制。这是美国政府的问题,如何既不给高端卡,又不切断业务往来,多买卡,达到A\H100的性能。NV将对NVLINK卡间互联做文章,堆叠卡提升性能,是一种很好的商业模式。
Q:与HW相比,H20组成集群的性能?
A:服务器卡间瓶颈,服务器瓶颈。卡间910B的互联带宽是H20的一半,卡间互联性能下降了一半。英伟达拥有一分半的IB交换机,没有替代解决方案。中国是400、800G集群交换机计算能力损失较大。
Q:A100升腾卡的性能标杆,软件有什么区别?
A:1)在软件方面,在商业软件方面,基本的高端软件是海外软件公司。国内企业很难适应兼容性。NV将在发卡前进行相应的性能兼容性测试和优化,因此NV最适合在销售平台上使用。
2)国内卡客户在互联网公司,不使用商业软件,而是开源软件开发,因为每个互联网公司都有不同的商业方式,会做一些开发。他们使用互联网自主研究平台,迁移适应国内卡,迁移成本相对较低。我们非常关注互联网行业,国内芯片行业也非常关注它,因为在NV中,互联网是最容易切入的,没有商业软件的影响,是自主研发的。软件开发周期比硬件长得多。
Q:17号禁令下单后,H20订单会转换吗?还是重新下单?
A:禁令取消后,NV取消。因此,H20的订单是重新开始的,不能同等替代。
Q:阉割版上市有用吗?客户需要4多长时间才能适应业务?
A:英伟达的卡在互联网公司,适合小批量-大批量,需要半年时间,从引入测试到小批量是半年。卡的阶段是英伟达的设计,自己测试,但没有下面的OEM制造商,交付给互联网引入测试,下面的服务器OEM工厂小批量生产调试,然后做小批量供应,与互联网同步,半年采购。
Q:从训练模型的角度来看,我们觉得有很多说法可以看到INT8、FP16甚至FP32。国内外卡的计算能力主要取决于哪个指标?
Q:主要是FP32和FP64。FP16由于设计工艺原因在中国无法实现。真正看浮点操作,还是FP32和FP64。英伟达基本上不做FP16浮点操作参数。FP16仍然可以用于国内模型框架,但一旦训练参数激增,即FP32和FP64。
Q:与H100等先进芯片相比,NV变通方案的成本会上升多少?
A:运营成本的上升将与卡的采购量成正比。以一个流行的例子来看,H100卡的运营成本不同于H800。在空间、功耗和人员成本方面,卡的成本非常高。H20的功耗低于H100,但远高于A100。从H20的角度来看,未来大规模使用的成本将增加A100的3-4倍,低于H100。
Q:H20使用液冷方案吗?
A:H20是风冷、液冷还是H100、750w功耗。H20加2-3张卡,功耗是A100的3-4倍。
Q:H20组网会比原H800组网增加功耗和散热需求吗?
A:由于计算能力和功耗低,H20的散热会低于H800。
Q:英伟达现在有合规产品,但是单卡计算能力下降是否意味着同一计算能力集群需要更多的服务器?
A:是的,H20留下了很多带宽的原因,让国内用户实现一些堆叠。
Q:假设有足够的信用卡购买资源,不考虑能耗,基于H20计算能力集群计算能力是否达到基于H100计算能力集群计算能力?
A:可以的。 产业链研究