自动驾驶中大模型的落地节奏
1. 感知端:BEV+Transformer 取代高精度地图+激光雷达方案,大大降低 BOM 成本
2. 规控端:22 年特斯拉 AI Day 标志着基于神经网络的大型模型在规控端开始应用,23 年 FSD V11.3/11.4 由于大型模型的泛化能力很强,在控制上更老的司机。
3. 端到端:放弃模块化,V12 不再区分感知控制决策模块,直接是从视频流输入到执行结果输出的大模型,从输入端到输出端,解决了以前只是本地最好的解决方案,现在可以实现全局最好的解决方案。因此,整个模型的架构效率大大提高,迭代速度加快(与需要标记的预训练相比,现在演变为无监督训练),模型本身完成了对整个事物和规则的认知。
L3(V11)、L4(V12)级别的自动驾驶可以真正促进软件收费商业模式的实施,增强整个消费者为自动驾驶付费的意愿。自动驾驶将真正成为销售的核心卖点 数量会有明显的拉动作用。所以 l3l4 自动驾驶也将成为整个汽车公司竞争的核心阶段,整个汽车公司正在全面推进该领域的研发投资和产业链的实施。
V11 如何实现每个链接的具体算法?感知物体→预测感知物的行动轨迹→根据轨迹做决定。
1.实现感知环节算法
(1)自动驾驶感知环节的任务
感知与交通相关的外部环境,包括检测、分类、跟踪和语义分割。
(2)感知链接的具体任务
•检测:检测物体和物体的位置,如人、车、交通标志、交通标志、冰淇淋桶、道路边缘操作线等。
•分类:判断物体的属性,如交通标志、红绿灯、标志、冰淇淋桶等。
•跟踪:跟踪移动物体的轨迹并进行预测,为后续预测做好准备。
•语义分割:分割目标物体的边缘,包括道路、天空、车辆等。
(3)自动驾驶中感知环节的重要性
感知是原始自动驾驶算法中最重要的环节,也是自动驾驶的核心。对于自动驾驶,我们应该感知与交通相关的外部环境,以便进行后续的决策和规划。
3.实现规划和决策算法
(1)规划和决策的逻辑
了解现状→预测人车未来路线→规划和决策,执行控制。
(2)规划和决策的具体任务
•全球路径规划:根据起点和终点决定如何前进是全球规划。最初,它通过高精度地图告诉你如何通过,但现在它是一个灵活的决定,通过低精度地图和当前实时观察到的路况。
•行为计划:根据对车辆未来的感知和预测,在遇到其他车辆时做出的决定,如等待对方通过、绕行、换道等。
•自身运动计划:确定某种行为后,确定自身车辆的运动计划,如转动方向盘的角度、速度等。
(3)规划和决策对自动驾驶体验的影响
一系列的规划和决策会影响整个自动驾驶体验。有些车的规划和控制做得很好,给人一种非常流畅的感觉,而其他车辆可能处理得很僵硬,体验也相对较差。
BEV+感知端Transformer的替代-详细解释原理
BEV+Transformer 要做的核心是两件事:1)将摄像头收集的二次利息转换为三次利息,以增加所谓的深度信息维度;2)将整车十几个摄像头图片的信息拼接(或重构)成一个 BEV 动态图的视角。
1)二维转三维通过 Transformer 算法实现。原理:多头注意力机制+近大远小算法估算+动态识别引入时间信息形成记忆。取代激光雷达。
2) BEV 视角重构,将摄像机各个方向收集的图片融入鸟瞰图中,将混乱变为规则,可以更清晰地判断环境。这里的融合主要是特征融合。(前融合是数据级融合,难度最大,数据保留率最高,但也保留了噪声数据,消耗了巨大的计算能力;后融合是目标级融合,难度最小。每个传感器都独立判断环境类型,但结论冲突容易发生,效果很差。特征集成是最合理的方法,首先提取所识别数据的特征,然后将各自的特征集成到物体/环境的全貌和时间序列的相对位置。从目标特征中提取的精细度越细,恢复的图像就越准确)。
3)如何构建 BEV 视角?Transformer 占用网络。把 BEV 视角分成网格,填充识别目标的大小和相对位置,占用网格,实现 BEV 构建视角局部高精度地图。感知精度越细,鸟瞰图越准确,可以构建小异形物。
综上,BEV+Transformer 可形成动态、局部的高精度地图,而不是原来的全球高精度地图。
后续:在大模型引入的规控和决策算法中,自动驾驶的老司机化
原来的规控算法基本上是基于决策树的模型,通过评分优化结果,并使用,Transformer 大模型算法可以提高这种能力。事实上,在监管过程中,特别是一些大十字路口的监管,决策相对困难,因为你没有车道线,或者可操作性很模糊,十字路口很大,这次算法监管和决策能力要求相对较高,需要生成车道线来指导自动驾驶。
从直播案例中可以发现,FSD V12 已经脱离模块化和 Rulebase 规则设置:1. 红灯时,跟随左转车道;2)绿灯由于前方交通堵塞而未启动,证明规则由模型本身认可,人类规则不参与培训。但不同规则的优先级有时是错误的,需要喂养这些案例进行培训。
端到端原理类似于人类的条件反射。我们没有先识别它是什么,预计它是什么,然后计划我应该做什么,然后执行它。没有这个过程,我们看到了直接执行。这是一种条件反射的效果,实际上更类似于端到端大模型的原理。
自动驾驶引入大模型的优势
1. 激光雷达+高精度地图方案的低成本替代。后者是威马 Robotaxi 例如,虽然性能很好,但已经有了 L4 水平能力,但自行车改装成本约 即使现在成本下降,20万美元也很难
大规模落地。BEV+Transformer 相当于用软件代替硬件识别能力,大大降低成本,促进自动驾驶的普及。
2. 大模型具有很强的泛化能力,大大提高了长尾场景的解决效率。V12 以场景为单位的培训可以解决一类问题 corner case,而 V11 只能一个一个 corner case 训练解决。效果:经过足够的学习,人类可能会遇到各种各样的场景 cos,它基本上可以解决,而且会比人类解决得更好。端到端的 V12 只有在泛化能力和推理能力下,我们才能真正有机会推动自己的学习和认知规则 l4 自动驾驶等级。
FSD 的推广节奏
马斯克一直强调自动驾驶的相对安全,而不是绝对安全。仿生学是相对安全的标准。大模型和人脑做决策的过程实际上是黑盒子。当大模型的能力基本上包含了大多数人的能力,与人类的决策边界基本重叠时,自动驾驶可以处理的场景基本上覆盖了大多数场景,很难找到无法处理的水平。事实上,此时已经可以开始逐步推广了。
现在 FSD 安全是人类驾驶的两倍多,能力边缘接近,实际上可以推广。当自动驾驶的安全水平是人类驾驶的安全水平时 4~5 当倍时,此时可以大规模推广,可以大规模应用。当自动驾驶的安全等级高于人类驾驶的安全等级时 十倍的时候就可以完全普及了。
特斯拉&国内汽车公司计算部署
云计算能力的大规模部署是今年才开始的,今年 7 月 1 号首个 Dojo 量产将在明年第一季度达到 30~40EFLOPs 计算能力(10万片 a100水平),明年第四季度达到 100亿 EFLOPs 计算能力水平,等效 30万片的 a100,所以大部分真正的特斯拉算力都不是从今年下半年开始的,其实就是为 v12 准备的。
国内云计算能力部署:华为最多 2EFLOPS,其次是小鹏 600P,理想还在建设中。
目前,模块化算法的V11版本在中国仍在效仿,真的需要端到端 v12,整个计算能力和特斯拉一样,可能会有几十倍的提高,整个行业的门槛会大大提高,因为光云计算能力的投资会有 10倍以上的提升,更多的成为未来是强者恒强的一种格局。当前零点几 E 或者 2 EFLOPs 可能构建计算能力 20~30亿元就够了,未来100亿元 plus 计算能力的构建至少可能是 门槛提高了200~300亿元以上的建设 10倍以上。纪要私享圈