E2E Self-Driving One-year Reflection
e2e PUBLIC DM(shamefully)因为wayve的新融资,不免的再次想起这个话题。
翻出来E2E Self-Driving in the Era of GPT来看,大部分想法是一致的,现在想到的和当时想到的并没有明显矛盾的地方。
不过有一些进一步的想法。
先回忆起试验结果comma_ai,当前明显的结果是,当前模型的输出是不够好的,主要有两个证据:
- carla的结果保持了一个很低的分数,上次自己实验用comma.ai的model在模拟器表现的结果是安全有余,经常卡住
- 还是要承认,结合其他车企的表现,目前接管率还是不够低,但是这个gap在变得更小。
- 参考全自动驾驶的里程碑,吗?
- 再结合百度在无人的无人驾驶部署,打听目前是1安全员对2台车。不知道是不是真的百度内部得到了一个模型,有机会做到盈利? 不过再结合小道消息,也感觉百度的大公司病太严重了,体现在员工的养老状态,加上leader们对于向上汇报的过度重视。
所以在今天,
新的熵增是什么
larger model
今天看起来很明显,但是去年这个时候竟然完全没有提,甚至没有去看comma ai的model size。
今天查了下发现,模型是49.1M。这个size如果不是隐瞒了严重的问题的话,就一定是一个大的潜在机会。
视频生成的进展
这里要提到,自上次的乐观之后,新了解到的一个概念,事关模仿学习的根基。
这个问题有点难以刻画,好像也没有形成普遍的概念。
这个问题是在描述,如果这个模型模仿的数据都是高水平数据(人类水平),它是否能学会应对事故(因为救车操作,或者说避免车道画龙操作,在数据里很少)。
更正式一点说,有点像模仿学习的数据分布,要比部署时候在control loop里面看到的数据分布,更加“窄”。
我自己意识到这个问题是在Imitation Learning。幸运的是,geohot同时给出了一个提示。
虽然他没有说清楚是什么解法,我结合当时的时间以及https://github.com/commaai/commavq。
我现在认为这个解法,是用视频生成去做augmentation!用conditioned video generation去仿真。 比如把一个车道线居中操作,仿真成画龙(再控制回居中)。这样让模型去扩大适应的分布。
更普遍地看中数据质量。
更加相信:数据集的high-quality是很重要的,比quantity要更加重要。
手工做去数据的去重,权重调整,是现在LLM训练的标配。
新的问题是什么
结合以上两点吧。有没有机会做到:
- carla的碰撞率降低一个数量级到1%,用各种方法。
- 如果可以,那么model size和collision rate的plot,是不是具备scaling law?
- 如何“精心地”准备数据。现在的两个做法:
- 用youtube driving。行车记录仪类型的。这里需要跑定位,然后用视频+轨迹做监督。
- 自己录。自动驾驶类的,这里不跑定位,用视频+控制信号做监督。