========================
== Seeking Complexity ==
========================

E2E Self-Driving: 模仿可以产生智能吗?

e2e PUBLIC

一条漂亮干净的路径,通往机器人的高可靠性终点。

从能吃下数据的尺度来排序:

  1. Internet-Scale Data

    无监督的训练掌握 常识

    DINOv2变成de facto image encoder

    自动驾驶中用视频生成做模拟器,可以不只利用驾驶数据,更多普通数据可以包含更多自然的知识

  2. 人类示教数据

    模仿学习的数据介绍 领域知识

    Behavior Cloning + Video Generation-based Augmentation

    更fancy的说法是world model,或者LeCun的JEPA

  3. 打分数据

    在两个采样中,A比B更好,表达 偏好

    用交替训练的方法,同时训练Reward Model,以及用这个Reward Model支持RL

    有一个机器臂的工作用了这个方法,HiL-serl

看起来能统一地解决自动驾驶和机械臂的问题。

今天主要讨论模仿学习如何结合视频生成解决分布漂移的死结。

前情提要

(23.03.22) E2E Self-Driving in the Era of GPT

起点是对comma ai的分析。

  • 为什么geohot可以对他自己的方案(一个非常粗放的端到端方案)如此有信心?
  • 距离make the world a better place中提到的终极目标MTBF=10^7还差多远?
  • 预训练模型(所谓的large model)对自动驾驶的帮助有多大,自动驾驶的Scaling Law存在吗?
  • 如果存在,怎么训练,要花多少钱?

(24.05.23) E2E Self-Driving One-year Reflection

Wayve融资启发的一些想法。

  • 端到端方法连在模拟器Carla的结果都普遍很差
  • Large Model对自动驾驶的帮助依旧不是共识
  • 用视频生成,对模仿学习的数据进行Augment的路径似乎开始清晰
    • 视频生成牛了
    • Imitation Learning的问题(Distribution Drift)变成最明显的障碍

更多的公开讨论

问题一:自动驾驶的scaling law存在吗

先说结论:在Open Loop中存在,在Close Loop中不存在。

或者说:模仿学习存在,但是模仿学习无法解决闭环控制。

(24.12.03) Preliminary Investigation into Data Scaling Laws for Imitation Learning-Based End-to-End Autonomous Driving https://arxiv.org/abs/2412.02689

  • 理想汽车团队
  • 数据量:4M sample,30k hours
  • Close Loop,从2M samples开始平坦

(25.04.06) Data Scaling Laws for End-to-End Autonomous Driving https://arxiv.org/abs/2504.04338

  • Nvidia团队

  • 数据量:400k km,8k hours

  • Close Loop,从256 hours开始平坦

  • 一通操作之后,实机部署,MTBF=24.41km

问题二:视频生成怎么帮助解决Distribution Drift

(2010.12.02) A reduction of imitation learning and structured prediction to no-regret online learning https://arxiv.org/abs/1011.0686

  • 先驱工作DAgger
  • 先部署,等车出问题了,人接管,再来把人接管的这段数据。

(24.09.25) Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models https://arxiv.org/abs/2409.16663

  • Nvidia团队
  • 在Sensor Encoder+Action Encoder后面,接了一个Latent State Estimation采样去预测场景变化。这部分场景采样直接参与训练。 其中Action也从Policy或者模仿数据中随机选择来采样。

(25.04.27) Learning to Drive from a World Model https://arxiv.org/abs/2504.19077

  • comma ai
  • 更加像是一个模拟器视角
  • 直接在Action上加噪音
  • 有趣的结果是,对比了两种模拟器,一种是视频生成,一种是reprojective distortion。结果第一种表现只是略好。
ReprojectiveWorld Model
Number of trips47,04740,026
Engaged % (time)27.63%29.92%
Engaged % (distance)48.10%52.49%

结尾

暂时没想到,先写到这吧。