看看 CVPR'25

2025-03-10 | 阅读：次

DriveAlpha (并非 CVPR’25)

第一个自动驾驶的类r1，被别人做了。但是还是一个比较简单的状态。

https://arxiv.org/abs/2503.07608

这篇论文我觉得做得很对的一点就是，结果是很容易用规则来判断对错的。它预测的是 acclerate, decelerate, keep, stop; straight, left, right 这些最高级的指令抽象（不过连变道都没有还是有点太抽象了），格式简单，planning 的指标也是简单的 F1 score。这点很对！RL 训练的时候要尝试那么多次，指标越简单越好。我正在绞尽脑汁想要把训练时用的指标搞简单，把需要 LLM 参与的不稳定的评价优化一下，他这个真是给我启发了。还有一个很可贵的点是 diversity 指标。因为自动驾驶并不存在一个最优解，所以鼓励模型去探索 gt 以外的其他解，这很正确。你做的对，你做得好啊。

顺带一提，他问问题的 prompt 和我构想的完全一致，要给 vlm 提供当前车辆的速度和高级指令，我还是想对了的，暗自庆幸一下。

然后就是我觉得不太好的地方。

一个是他的 CoT 其实很短，说是做了强 reasoning，其实感觉想得也不太多？他这个输出的长度都不用修改模型的 config，我觉得普通输出都能有这么长了。（不过 reasoning 的强弱也不能看链长短啦，想得更少就能出正确结果是天大的好事）

第二个是，他的输入是单张前视。首先，其他车辆速度是不可能知道的了。我曾经对 qwenvl 做过实验，用两张间隔 0.5s 的前视图，问他里面车的速度，基本能知道哪辆车动了哪辆车没动（远处的车效果差很多，一般都无脑判断成没动）。但是决策的时候，知道这些就很够啦，我就能决定要不要停车要不要绕行了。给一张图看图说话，你怎么知道车的速度的？其次，我是赞成环视的，因为开车的时候总要看后视镜吧，难道变道的时候就不看后车直接转向了？不过我现在也不打算在我第一个工作做环视，因为 VLM 现在对环视的理解是真的不敢恭维，我现在没有时间在这方面较劲，性价比比较低，以后解决吧。我现在觉得性价比最高的还是前视+历史图像。

第三个是，也不能说不好，只能说怀疑。他用的是 Qwen2VL-2B，模型非常小。那做出来的结果是不是可靠其实也要打一个问号，我是真的怀疑他的数据会不会情境太少产生过拟，难以服众啊。不过如果确实小模型就能有这样好的效果，那也是一个很好的消息。

SimLingo

https://arxiv.org/pdf/2503.09594

点进去的一刻释怀了，原来是 CarLLaVA，现在改成这个名字了。相比之前论文多了一些东西，其中一个是 Action Dreaming，就是为了避免模型只根据画面做决策而忽略 Action，要刻意让模型做一些 ood 的与 export gt 不同的 Action 来让模型做预测，并判断这些 Action 能不能做。思路是在数据集里模拟，和我做我那个 Eval 的思路一样。

然后提到他们用 DriveLM-Carla 采数据的时候，会用 GPT 重写 20 个同义句，训练的时候随机 sample 来避免过拟合。我瞬间想到我这个是不是也要重写，然后想起来我好像已经要抛弃 sft 只关注正确性指标了。但是话又说回来，他只用 LoRA sft 和小模型 (InternVL2-1B, The InternVL2-1B model consists of the vision encoder InternViT-300M-448px (ViT) and Qwen2- 0.5B-Instruct as the language model (LLM)) 就做到了这些，也是很神奇了。我可以做到吗。不过也是一个好消息，把我换大模型（比如7B）的冲动打消了，应该是没什么必要。小模型好啊，负担得起，跑得起来。

过路的末某人

MeteorCollector

看看 CVPR'25

目录

DriveAlpha (并非 CVPR’25)

SimLingo