特斯拉DOJO深度解析-特斯拉更有可能对外租赁自己的超算集群-股票-壹米财经

DOJO主要是特斯拉用于云端训练的一个超级计算机，设计目的是为了能够处理大量的数据

整体架构：分成6个层级，从内核、芯片、瓦片、模组，机柜，超算机群。

1. 最底层的架构就是内核，1个D1芯片上有354个内核，1个内核包含了4个主要的部分。

2. 芯片：以上4个部分就组成了DOJO 1个节点的主要结构，可以理解为它是1个完整的1个CPU，具有独立的运算能力。354个节点就是组成了1个D1，

3. Tier: 25个D1组成了一个Tier，Tier在25个DI芯片之外，会有40个IO芯片(它主要是为了进行Tier之间的数据交互)，整体的Tier之间的数据交互。

4. 模组：6个Tier组成一个模组，模组之间主要是使用把板间通讯，为了使得我们每一个Tier之间计算的数据能够在不同Tier之间进行共享，所以一个dip的接口,会把32GB的HBM内存集成在一个卡上，也就是PCIe的一个板权卡上。

5. 机柜两个模组构成1个机柜

6. 超算机群：10个机柜构成1个超算机群。Info sow是台积电最好的工装技术，全球唯一客户就是特斯拉。特斯拉更有可能采用的方式可能是对外租赁自己的超算集群。

Q：D1和A100产品对比？

A：D1算力362flops,A100算力312flops，D1在处理图像卷积方面的效率会更高，但是a100通用性会更强一点，这个是要看他们处理不同的任务来定义的。

Q：国内的企业介入的机会？

A：交换机、内存可能有机会。

Q：自动驾驶和人性机器人通用性？

A：机器人场景更复杂，对应的视频数据也更难获得。

Q：国内车企能对标特斯拉的有哪些？

A：华为、小鹏、理想

Q：特斯拉为什么既需要D1又囤货H100

A：D1目前还没有完全搭建成，但是特斯拉的端到端的自动驾驶系统已经快要上线了，所以他为了他必须要去应对这方面的需求

Q：明年1.1亿flops 对应D1的比例？

A：完全是D1。目标建91个集群。

Q：D1能不能向CUDA一样支持主流人工智能算法框架

A：可以。但是在处理图像之外的任务可能效率不高

Q：D1会超过英伟达么？

A：我觉得不会，因为本身他们的一个芯片的设计的出发点是不一样的。然后特斯拉的这种芯片它也短期内应该也不会去进行对外销售。

Q：一个DOJO需要多少sram和HMB

A：Sram 1320GB, HMB 30个*32GB=960GB

Q：DOJO算力提升需求和增幅？

A：一方面是特斯拉实际业务端需求，包括自动驾驶和机器人。另一方面，受制于芯片量产速度。今年预估有4-5万片D1芯片，后续有D2芯片。

Q：D1的互联带宽大概比英伟达的 NVLink的这种方案的话高多少？

A: 我只能说他自己本身的带宽，像Tier之间的话就是9GB每秒，然后Tier和DIP之间的话是4.5tb每秒，是通过特斯拉的 GDP协议来进行传输

Q：今年明年产能？

A：7月到年底预期产量大概到4万左右，年化下来可能8万左右。但是因为因封装技术本身它会有比较高的这种不良品率，能不能达到这样一个产量规模还我还得就是还得看实际的情况了。SEVEN调研纪要