半导体产业链:H20骑脸羞辱,阉割成这样,有信心打败国产芯片
2023-11-10 09:33:08
描述
先列HGX 从参数变化可以看出,H20的核心参数是在H100原芯片的基础上通过固件阉割调整的产品。HBM内存96GBFP16稠密算力148TNVLINK 900GB/s与H100/H800相比,HBM增加了一个,16*5=80GB增加到16*6=96GB,成本增加了240美元。FP1
[本文共字,阅读完需要分钟]

先列HGX 从参数变化可以看出,H20的核心参数是在H100原芯片的基础上通过固件阉割调整的产品。HBM内存96GBFP16稠密算力148TNVLINK 900GB/s半导体产业链:H20骑脸羞辱,阉割成这样,有信心打败国产芯片与H100/H800相比,HBM增加了一个,16*5=80GB增加到16*6=96GB,成本增加了240美元。FP16密度计算能力为H100 15%,H20需要增加软件人员的适应成本,NVLINK从400GB/s升级到900GB//ss,因此,互联网速率将大大提升。H100/H800通过IB网络网络是目前最大集群的主流实践方案。H100的理论极限是5000张卡集群,NV测试实践超过4000张卡,5000*2P=10000PH800实践集群在2000张~3万张卡,2万*2P=4万PA100最大实践集群为1.6万张卡,1.6万*0.6P=9600PH20集群0.148P*5万=7400PH20计算能力和通信平衡。H20集群的规模远低于H100的理论规模。因此,未来两年国产卡能力10B和单卡计算能力0.6的合理估计为3000P中性T,目前,集群实践的上限是2万~3000张卡,约1800P集群计算能力10C,计算能力有望翻倍以上,集群能力得到重视,具体能力未知某90,单卡计算能力0.6T,目前了解到目前的集群技术可以做2000~预计明年上半年将增加300张集群芯片,增加下一代90系列的集群规模,单卡预计将增加到1.6T以上,目前,在手互联网技术中实现600GB/s的可行性很高。其他卡还没有达到A100水平的潜在用途 3.5启动训练需要3000P计算能力,H20集群能胜任GPT 4起步训练需要2万计算能力,主流计划4万计算能力,H20集群无法胜任GPT 5.启动训练需要1万计算能力,H20集群无法胜任,H800集群不称职,需要1000亿高端集群垂直模型培训,H20能胜任微调模型,H20能胜任万亿大模型推理,性能应超过A100明年趋势Meta宣布明年开源GPT-4级模型,全球开源生态将进入GPT-4级OpenAI预计明年上半年发布GPT-5,目前是10万亿参数级,未知国内模型今年是否达到100万亿注册,明年仍需达到1000亿模型。否则,与开源能力的差距将拉大,核心竞争力的供需失衡可能会丧失。据英伟明年达到400万,中国占25%,中国需求100万H800。如果用H20来弥补,按计算能力估计会有600万颗,英伟达会原地起飞?根据国内租赁企业的沟通,目前的供需比例为1-10。应用开始后,国内人工智能行业最需要快速培训的模型将更加不平衡。培训端计算能力集群的规模是核心。目前,只有H800需要明年进入GPT-4级模型 H100可以胜任大模型推理,目前垂直模型推理,国产卡发挥的主要空间,这次H20可以在这个领域发挥更多,也就是说,截取国产卡的动力范围小模型推理,H20使用HBM有点浪费,GDDR足够胜任恒润股份:公司宣布芜湖项目是建设4万计算能力集群,孵化国内大模型。在计算能力企业中,唯一准确定位自己的策略,因此大多数模型制造商都在谈论合作,这是最值得期待的企业。在计算能力企业中,唯一准确定位自己的策略,所以大多数模型制造商都在谈论合作,这是最值得期待的企业。!!理解恒润就是理解算力!!计算能力租赁:H20的成本高于H100,NV需要额外的成本,所以利润率不会降低,所以对于培训企业的计算成本,同样的计算能力需求需要花费近5倍的资本支出,不租怎么办?计算租赁投机不是价格上涨的主要逻辑,投机首先是资本支出的逻辑,其次是表观利润率高的逻辑服务器制造商:原来没有商品,现在有商品,价格不低。同样的计算能力需求,量要上五倍,好不好?国内芯片也适合国内芯片:不是每个人都有钱花5倍的资本支出购买或使用如此昂贵的计算能力,国内芯片这一代推理成本效益,下一代可能压H20照明模块:虽然H20组大集群成本不低,但小集群推理也想高速互联,900G,800G光模块?(目前尚未确认网络方案)应用程序制造商:最初在中国做应用程序,计算能力不是数量,现在昂贵的点昂贵,总是有持续的供应,行业继续,只是等待国内扩张白?

半导体产业链:H20骑脸羞辱,阉割成这样,有信心打败国产芯片,关注先进技术的扩产和先进包装。这些问题是什么?三思行研究