DOJO主要是特斯拉用于云端训练的一个超级计算机,设计目的是为了能够处理大量的数据
整体架构:分成6个层级,从内核、芯片、瓦片、模组,机柜,超算机群。
1. 最底层的架构就是内核,1个D1芯片上有354个内核,1个内核包含了4个主要的部分。
2. 芯片:以上4个部分就组成了DOJO 1个节点的主要结构,可以理解为它是1个完整的1个CPU,具有独立的运算能力。354个节点就是组成了1个D1,
3. Tier: 25个D1组成了一个Tier,Tier在25个DI芯片之外,会有40个IO芯片(它主要是为了进行Tier之间的数据交互),整体的Tier之间的数据交互。
4. 模组:6个Tier组成一个模组,模组之间主要是使用把板间通讯,为了使得我们每一个Tier之间计算的数据能够在不同Tier之间进行共享,所以一个dip的接口,会把32GB的HBM内存集成在一个卡上,也就是PCIe的一个板权卡上。
5. 机柜两个模组构成1个机柜
6. 超算机群:10个机柜构成1个超算机群。Info sow是台积电最好的工装技术,全球唯一客户就是特斯拉。特斯拉更有可能采用的方式可能是对外租赁自己的超算集群。
Q:D1和A100产品对比?
A:D1算力362flops,A100算力312flops,D1在处理图像卷积方面的效率会更高,但是a100通用性会更强一点,这个是要看他们处理不同的任务来定义的。
Q:国内的企业介入的机会?
A:交换机、内存可能有机会。
Q:自动驾驶和人性机器人通用性?
A:机器人场景更复杂,对应的视频数据也更难获得。
Q:国内车企能对标特斯拉的有哪些?
A:华为、小鹏、理想
Q:特斯拉为什么既需要D1又囤货H100
A:D1目前还没有完全搭建成,但是特斯拉的端到端的自动驾驶系统已经快要上线了,所以他为了他必须要去应对这方面的需求
Q:明年1.1亿flops 对应D1的比例?
A:完全是D1。目标建91个集群。
Q:D1能不能向CUDA一样支持主流人工智能算法框架
A:可以。但是在处理图像之外的任务可能效率不高
Q:D1会超过英伟达么?
A:我觉得不会,因为本身他们的一个芯片的设计的出发点是不一样的。然后特斯拉的这种芯片它也短期内应该也不会去进行对外销售。
Q:一个DOJO需要多少sram和HMB
A:Sram 1320GB, HMB 30个*32GB=960GB
Q:DOJO算力提升需求和增幅?
A:一方面是特斯拉实际业务端需求,包括自动驾驶和机器人。另一方面,受制于芯片量产速度。今年预估有4-5万片D1芯片,后续有D2芯片。
Q:D1的互联带宽大概比英伟达的 NVLink的这种方案的话高多少?
A: 我只能说他自己本身的带宽,像Tier之间的话就是9GB每秒,然后Tier和DIP之间的话是4.5tb每秒,是通过特斯拉的 GDP协议来进行传输
Q:今年明年产能?
A:7月到年底预期产量大概到4万左右,年化下来可能8万左右。但是因为因封装技术本身它会有比较高的这种不良品率,能不能达到这样一个产量规模还我还得就是还得看实际的情况了。SEVEN调研纪要