========================
== Seeking Complexity ==
========================

E2E Self-Driving One-year Reflection

e2e PUBLIC DM

(shamefully)因为wayve的新融资,不免的再次想起这个话题。

翻出来E2E Self-Driving in the Era of GPT来看,大部分想法是一致的,现在想到的和当时想到的并没有明显矛盾的地方。

不过有一些进一步的想法。

先回忆起试验结果comma_ai,当前明显的结果是,当前模型的输出是不够好的,主要有两个证据:

  1. carla的结果保持了一个很低的分数,上次自己实验用comma.ai的model在模拟器表现的结果是安全有余,经常卡住
  2. 还是要承认,结合其他车企的表现,目前接管率还是不够低,但是这个gap在变得更小。
    • 参考全自动驾驶的里程碑,吗?
    • 再结合百度在无人的无人驾驶部署,打听目前是1安全员对2台车。不知道是不是真的百度内部得到了一个模型,有机会做到盈利? 不过再结合小道消息,也感觉百度的大公司病太严重了,体现在员工的养老状态,加上leader们对于向上汇报的过度重视。

所以在今天,

新的熵增是什么

larger model

今天看起来很明显,但是去年这个时候竟然完全没有提,甚至没有去看comma ai的model size。

今天查了下发现,模型是49.1M。这个size如果不是隐瞒了严重的问题的话,就一定是一个大的潜在机会。

视频生成的进展

这里要提到,自上次的乐观之后,新了解到的一个概念,事关模仿学习的根基。

这个问题有点难以刻画,好像也没有形成普遍的概念。

这个问题是在描述,如果这个模型模仿的数据都是高水平数据(人类水平),它是否能学会应对事故(因为救车操作,或者说避免车道画龙操作,在数据里很少)。

更正式一点说,有点像模仿学习的数据分布,要比部署时候在control loop里面看到的数据分布,更加“窄”。

我自己意识到这个问题是在Imitation Learning。幸运的是,geohot同时给出了一个提示。

虽然他没有说清楚是什么解法,我结合当时的时间以及https://github.com/commaai/commavq

我现在认为这个解法,是用视频生成去做augmentation!用conditioned video generation去仿真。 比如把一个车道线居中操作,仿真成画龙(再控制回居中)。这样让模型去扩大适应的分布。

更普遍地看中数据质量。

更加相信:数据集的high-quality是很重要的,比quantity要更加重要。

手工做去数据的去重,权重调整,是现在LLM训练的标配。

新的问题是什么

结合以上两点吧。有没有机会做到:

  • carla的碰撞率降低一个数量级到1%,用各种方法。
  • 如果可以,那么model size和collision rate的plot,是不是具备scaling law?
  • 如何“精心地”准备数据。现在的两个做法:
    1. 用youtube driving。行车记录仪类型的。这里需要跑定位,然后用视频+轨迹做监督。
    2. 自己录。自动驾驶类的,这里不跑定位,用视频+控制信号做监督。