E2E Self-Driving in the Era of GPT

2023-03-22 10:00:00 e2e PUBLIC DM

大模型可以解决什么问题。

200公里？

抛开“L4做不成”的观点，讨论“L4哪里做不成”的事实。

Mobileye认为Robotaxi的质变点在于MTBF=10^7小时。那当前各家做到了什么水平呢：

小道消息：

各家投入了200至1000名工程师，去克服这个问题，各个模块都尽可能地follow tesla，目前达到的水平就是如此。

是不是说明这条路很难scale up？无论是测试量，还是实际的MTBF，都需要考虑：证明MTBF是10^7，一定需要比10^7高一个数量级的测试量。

有没有绝对无法解决的问题？why_L4_is_hard

这个23个人的公司做到了什么。

GeoHot是搞怪的还是认真做的。

(pretrain -> prediction/planning) + control/adapter

我们对prediction/planning + control，不陌生。

新的熵减来自，pre-trained large model。关键在于如何做到，以及做到之后有多大帮助（寻找scaling law）。

找pre-trained large model，约等于找数据在无标注下能利用的内在一致性是什么，比如：

那么自动驾驶的一致性是什么。

自动驾驶的一致性就是轨迹，特别的，是自己的车的轨迹。

这个信号相当于自动驾驶的world model，在预测自己的下一步的时候，要做很多内在的任务（哪里可以开，不能撞到什么，要不要减速）。

按analysis by synthesis的思路：如果模型可以对下一步去哪预测的很好，我们可以认为他理解了这个世界。

如何获取大量轨迹：可以用youtube上的行车记录仪数据。

我们看看现有的工作是怎么解决轨迹来源：

这么看，comma ai才是那个做 难且正确 的事的人。

所以这像是两个圈子被隔绝开，能准备数据的人不会大规模训练，会大规模训练的人无法做轨迹的自动化标注（也就是建图）。

大模型是少数人的特权吗。看看常见的工作需要多少GPU时。

GPU价格计算：

100块一年需要1.5 * 24 * 365 = 130w美元 = 940w人民币。

还是很贵的。明显的节省方向是：

还是挺贵的，对实验要求很高。

UniAD汇报的结果：

其中关注MR(missing rate预测轨迹和实际轨迹完全不一致）和minADE（轨迹的距离误差）。

粗略来看，15%的MR和0.7的minADE都不算好。

甚至作者自己短短的预览结果里都有明显的过度躲避

是不是对指标理解存在偏差？从youtube上众多comma three的结果来看，其表现都要比这更自然。

Policy Pre-training for Autonomous Driving via Self-supervised Geometric Modeling ↩︎ ↩︎
Learning to Drive by Watching YouTube videos: Action-Conditioned Contrastive Policy Pretraining ↩︎ ↩︎
Planning-oriented Autonomous Driving ↩︎
Segment Anything ↩︎
VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking ↩︎