看看最近的论文(2025年八月下半月)
一般来讲,越靠上的越新
VLA
Video Generators are Robot Policies
直接从视频转化成动作,比较简单的思路
“只要让大视频扩散模型学会“想象”机器人完成任务的全过程,再用一个小解码器把想象转成动作,就能用极少的演示数据获得远超传统模仿学习的泛化能力。”
🎯 研究动机
- 行为克隆(BC) 需要海量真人演示,且跨物体/场景/任务迁移差。
- 互联网级视频扩散模型(Sora 类)已学会物理与语义先验,却只用来“看”,没拿来“干”。
- 能否把“生成未来帧”直接当成策略?——即 Video Generator ≈ Robot Policy。
🧩 方法框架:Video Policy
组成 | 作用 | 技术细节 |
---|---|---|
Video U-Net (μθ) | 想象未来 8–32 帧 | 以 SVD 为骨干,输入首帧+任务文本 → 生成“机器人完成任务”的视频 |
Action U-Net (αθ) | 把想象转成动作 | 轻量 1D-CNN,从 μθ 中间特征解码 6-DoF 轨迹 + 夹爪 |
两阶段训练 | 先训视频,后训动作 | 冻结 μθ,仅用 50–300 条演示即可训动作头;梯度不回传,避免稀释视频先验 |
🏗️ 核心洞见
- 先训视频再训动作 > 端到端联合训练(RoboCasa +9 %)。
- 视频预测 horizon 越长 → 对分布漂移越鲁棒(图 3)。
- 无动作视频也能辅助泛化:仅用 12 任务动作数据,但视频见过全部 24 任务 → 在未见任务上仍 >0.5 成功率(图 4)。
📊 实验结果
Benchmark | 演示数 | Video Policy | 最强基线 | 提升 |
---|---|---|---|---|
RoboCasa (34 任务) | 50 | 66 % 平均成功率 | DP-ResNet 41 % | +25 % |
Libero-10 | 50 | 94 % 平均成功率 | UVA 90 % | +4 % |
真实世界 5 任务 | 200/任务 | 80–100 % (位置/物体/背景漂移) | — | 显著 |
🔍 泛化维度验证
| 维度 | 举例 | 成功率 | 说明 | |—|—|—|—| | 位置漂移 | 抽屉/杯子随机摆放 | 80–100 % | 视频先验鲁棒 | | 未见物体 | 异形杯、彩色 M&M | 70–90 % | 形状/颜色泛化 | | 背景变化 | 黑/红/蓝桌面 | 80 %± | 透明杯在低对比度场景略降 |
⚖️ 局限与展望
- 计算大:25 帧 × 256² 需 9 s(A100),未来靠蒸馏/加速可实时。
- 单臂单任务:暂未做多臂、长时程、语言指令。
- 模型单一:仅基于 SVD;后续可试更大视频-语言-动作预训练模型。
把“想象机器人怎么做”的像素级扩散模型,当成策略本体;再配一个极轻量的动作解码器,就能用 50 条演示打败 3000 条演示的传统 BC,并轻松泛化到全新物体、场景和任务。
IRL-VLA: Training an Vision-Language-Action Policy via Reward World Model
训练世界模型进行 RL 训练
这篇论文提出了一种全新的端到端自动驾驶框架——IRL-VLA(Inverse Reinforcement Learning for Vision-Language-Action),它通过逆强化学习构建奖励世界模型(Reward World Model, RWM),实现了不依赖高保真仿真器的闭环强化学习训练,显著提升了自动驾驶系统在复杂场景下的表现。
🎯 研究背景与挑战
当前主流的端到端自动驾驶系统(如UniAD、VAD、DiffusionDrive等)大多基于模仿学习(Imitation Learning),存在两个关键缺陷:
- 开环训练:模型只是“模仿”人类驾驶行为,无法主动探索更优策略,容易复制数据集中的次优行为。
- 闭环训练困难:传统闭环训练依赖高保真仿真器,存在Sim2Real域差和计算开销巨大的问题。
🧩 IRL-VLA 的核心思想
IRL-VLA 提出了一种三阶段训练范式,巧妙避开了上述问题:
阶段 | 名称 | 关键内容 |
---|---|---|
阶段1 | 模仿预训练 | 构建一个强大的Vision-Language-Action(VLA)模型,通过人类驾驶数据进行模仿学习,建立基础策略。 |
阶段2 | 逆环境学习 | 通过逆强化学习(IRL)训练一个轻量级奖励世界模型(RWM),用于预测任意轨迹的奖励(如安全性、舒适性、效率)。 |
阶段3 | 闭环强化学习 | 利用RWM作为奖励来源,采用PPO(Proximal Policy Optimization)算法对VLA策略进行微调,实现不依赖仿真器的闭环训练。 |
🧠 技术细节亮点
- VLA模型架构
- 语义推理模块:基于SennaVLM,处理多视角图像和语言指令,理解场景语义。
- 3D推理模块:将图像特征投影到BEV(鸟瞰图)空间,提取地图和动态目标信息。
- 统一扩散规划器:采用扩散模型生成多模态轨迹,具备更强的泛化能力。
- 奖励世界模型(RWM)
- 输入:多视角图像 + 预测轨迹。
- 输出:预测8个驾驶指标(如无碰撞、车道保持、交通灯合规等),加权得到最终奖励。
- 优势:
- 无需仿真器:直接基于真实数据预测奖励,避免Sim2Real域差。
- 轻量级:相比传统仿真器,计算效率提升显著。
- 强化学习训练
- 算法:PPO(稳定、样本高效)。
- 奖励来源:RWM实时预测。
- 策略优化:结合模仿学习和强化学习损失,避免灾难性遗忘。
📊 实验结果
- NAVSIM v2挑战赛:在CVPR 2025自动驾驶大挑战中获得第二名,EDPMS得分45.0。
- Navhard基准测试:EPDMS得分74.9,超越DiffusionDrive(63.2)、WOTE(66.7)等方法。
- 消融实验:
- 加入语义推理模块,性能提升1.4 EPDMS。
- 加入扩散规划器,性能提升3.0 EPDMS。
- 模仿损失权重为0.5时,强化学习与模仿学习达到最佳平衡。
🚀 贡献与意义
- 首次实现了不依赖仿真器的端到端VLA闭环强化学习。
- 提出了通用可扩展的奖励世界模型(RWM),为自动驾驶强化学习提供了新范式。
- 在多个基准测试中达到SOTA性能,验证了方法的有效性和泛化能力。
RL
EvaDrive: Evolutionary Adversarial Policy Optimization for End-to-End Autonomous Driving
这一篇 navsim 搞的很高,对抗网络还挺有意思的
EvaDrive 把“轨迹生成 + 多目标评价”做成一个可迭代的对抗博弈:生成器(Actor)不断提出候选轨迹,评价器(Critic)用多维奖励向量打分,二者在多轮 Pareto 优化里互相拉扯,最终产出的轨迹既安全舒适又高效,还不用人工标注偏好。
🎯 研究痛点
- 模仿学习 / 单目标 RL → 只能学平均行为,缺乏多样性和迭代试错。
- 现有生成-评价框架 → 生成和评价是“一次性”流水线,缺少闭环。
- GRPO/DPO → 把多维指标硬压成一个标量奖励,带来 scalarization bias。
🧩 方案总览
| 模块 | 职责 | 关键技术 |
|—|—|—|
| Actor(生成器) | 输出多样化轨迹 | ① 自回归意图建模(保留时间因果)
② 单步扩散精炼(空间灵活) |
| Critic(评价器) | 给轨迹打分 | 输出 K 维奖励向量(安全、舒适、效率…) |
| 多轮优化机制 | 让 Actor 与 Critic 来回迭代 | 每轮从 Pareto 前沿采样轨迹作为下一轮 anchor |
| Adversarial Policy Optimization (APO) | 让 Actor 与 Critic 对抗 | 类似 GAN:Actor 想拿高分,Critic 把专家轨迹打更高 |
🏗️ 训练流程(算法 1 简述)
for 轮次 t = 0…K-1:
1. Actor 生成 64 条候选轨迹 At
2. Critic 输出 K 维奖励 r(·)
3. 用 Fast Non-Dominated Sort 建 Pareto 前沿 Pt
4. 从 Pt 均匀采样 M 条作为下一轮 anchor
5. 下一轮 Actor 以 anchor 为条件继续产出 At+1
最后一轮取 Pareto 最优轨迹作为最终输出。
📊 实验战绩
| 场景 | 关键指标 | EvaDrive | 对比基线 | 提升 | |—|—|—|—|—| | NAVSIM v1 | PDMS | 94.9 | DiffusionDrive 88.1 | +6.8 | | NAVSIM v2 | EPDMS | 86.3 | Hydra-MDP++ 85.6 | +0.7 | | Bench2Drive | Driving Score | 64.96 | DriveTransformer 65.02 | 基本打平,但风格可控 |
- 风格开关:只改权重 w,即可在同模型上切换
- 保守型:安全权重高,PDMS=93.5
- 激进型:效率权重高,PDMS=94.9
- 消融(表 3):去掉对抗/多轮/Pareto 任一环节都会掉点。
🔍 亮点小结
- 第一次在自动驾驶里把“多目标 + 多轮 + 对抗”完整跑通。
- 无需人工偏好对,奖励直接来自仿真规则,规避 GRPO/DPO 的标注噪声。
- 单步扩散 + Pareto 采样,兼顾实时性与多样性。
EvaDrive 让车像人一样“多想几步”,在 NAVSIM 上拿下新的 SOTA,同时可按权重旋钮切换驾驶风格。
ReconDreamer-RL: Enhancing Reinforcement Learning via Diffusion-based Scene Reconstruction
arxiv 暂未开源
算是一个有趣的思路吧。它先把场景做三维重建,这样agent无论在场景里如何移动,都可以先渲染个大概。对于动态物体例如其他交通参与者,就用 diffusion 渲染出来。
这篇论文提出了 ReconDreamer-RL,一个利用扩散模型重建驾驶场景、增强强化学习训练效果的端到端自动驾驶训练框架。
🎯 核心问题
现有自动驾驶强化学习训练面临两大瓶颈:
- 仿真环境不真实(Sim2Real Gap)
- 游戏引擎缺乏真实传感器数据;
- 重建方法(如3DGS)在新轨迹/视角下渲染质量差。
- 训练数据分布偏差
- 模仿学习(IL)数据集中缺乏“cut-in”“急刹”等corner cases;
- 强化学习冷启动困难,探索空间受限。
🧩 ReconDreamer-RL 的三件套
模块 | 作用 | 技术亮点 |
---|---|---|
ReconSimulator | 构建高质量、可交互的仿真环境 | 3DGS + 视频扩散模型(DriveRestorer)提升新视角渲染质量;加入运动学模型保证轨迹物理合理性 |
DAA(动态对抗代理) | 自动生成 corner cases | 控制周围车辆行为(如cut-in、急刹),增强策略鲁棒性 |
CTG(Cousin轨迹生成器) | 解决数据偏差 | 对专家轨迹进行扩展与插值,生成更多“非直线”行为,构建 Cousin-nuScenes 数据集 |
🏗️ 两阶段训练流程
阶段 | 内容 |
---|---|
阶段1:模仿学习 | 使用 CTG+DAA 生成的数据训练初始策略(行为克隆) |
阶段2:强化学习 | 在 ReconSimulator 中闭环训练,DAA 实时生成新corner cases,策略通过PPO优化 |
📊 实验结果
方法 | Collision Ratio ↓ | 说明 |
---|---|---|
VAD(模仿学习) | 0.386 | 缺乏corner cases,闭环表现差 |
RAD(RL+3DGS) | 0.238 | 有RL但仍受限于渲染质量和数据分布 |
ReconDreamer-RL | 0.077 | 相比模仿学习 ↓5×,相比RAD ↓3× |
在 cut-in、急刹、对向车道入侵等corner cases中,ReconDreamer-RL 显著优于其他方法。
贡献总结
- 首次将视频扩散先验引入驾驶场景重建+强化学习,显著缩小Sim2Real Gap。
- 提出DAA与CTG,解决corner case缺失与数据分布偏差问题。
- 在 nuScenes 和 Waymo 上均验证有效,碰撞率降低5倍,渲染速度125 FPS,支持高效RL训练。
ReconDreamer-RL 用扩散模型“重建+增强”真实驾驶场景,自动生成corner cases,让自动驾驶策略在仿真中也能“见过世面”,从而更安全、更鲁棒。
Diffusion
VFP: Variational Flow-Matching Policy for Multi-Modal Robot Manipulation
没太懂…主要是太基础了,很数学,先放这里,之后再看。
这篇论文提出了 VFP(Variational Flow-Matching Policy),目标很明确:
让基于流匹配(flow-matching)的策略也能像扩散模型一样,建模机器人在复杂任务中“多模态”的动作分布,同时保持流匹配原有的超快推理速度。
🎯 研究背景
- 扩散策略(diffusion policy) 能很好地建模“一个状态 → 多种合理动作”的多模态分布,但采样慢(需要20步去噪)。
- 流匹配(flow matching) 只需一步ODE积分,推理速度是扩散的5倍,但天生会把多模态平均成单峰分布,导致“动作模糊”甚至失败。
🧩 核心贡献
模块 | 作用 | 技术亮点 |
---|---|---|
变分潜变量 z(Variational Latent Prior) | 为每个模式分配一个“开关” | 让流解码器不再平均所有动作,而是根据 z 生成对应模式 |
Kantorovich-Optimal Transport(K-OT) | 显式对齐“专家分布 vs 预测分布” | 避免漏掉任何专家模式,全局分布级匹配 |
专家混合解码器(MoE-Flow) | 每个专家只学一个模式 | 低计算量、易并行,推理时只激活一个专家 |
“先用潜变量 z 选模式,再用对应专家做一步流匹配,最后用 OT 保证所有模式都被覆盖。”
📊 实验结果
场景 | VFP vs 最强基线 | 说明 |
---|---|---|
Franka Kitchen(任务多模态) | +11.5% 成功率 | 避免“来回切换任务”的犹豫行为 |
D3IL Avoid(路径多模态) | +61.7% 成功率 | 避免“直撞障碍物”的平均路径 |
Adroit & Meta-World(大规模) | +4~15% 平均 | 在复杂手物操作任务上更鲁棒 |
- 推理速度:比扩散模型快 4.6×,比 FlowPolicy 仅慢 5.6%。
- 模型大小:与基线相当,甚至略小。
其他
AgentWorld: An Interactive Simulation Platform for Scene Construction and Mobile Robotic Manipulation
卢策吾老师它们开发的具身用交互环境,码
AgentWorld 是一个面向家庭场景的全链路仿真 + 数据采集平台:
先用程序自动生成可交互、可渲染、可物理模拟的客厅/卧室/厨房,再用 VR/键盘双模式远程操作轮式或人形机器人收集大规模演示数据,最后给出1000+ 条轨迹的 AgentWorld Dataset,让模仿学习算法(BC、ACT、Diffusion Policy、π0)都能在 sim 训练后几秒内 zero-/few-shot 迁移到真机。
🎯 研究痛点
- 现有仿真器要么只做场景生成,要么只做任务数据集,缺少端到端、移动+操作一体化的流水线。
- 家庭环境布局、材质、光照、物体摆放高度可变,需要程序 + 人工可编辑的灵活生成。
- 真机采集耗时、危险;需要高保真 VR 远程操作来快速攒大规模演示。
🧩 平台能力总览
模块 | 子功能 | 技术要点 |
---|---|---|
程序场景生成 | 4 步流水线 | ① 布局自动生成(墙/楼梯/多楼层) ② 语义资产库 >9000 件(家具、可交互物体) ③ PBR 材质随机配置(木/金属/陶瓷…) ④ Isaac Sim PhysX 5.0 自动物理绑定 |
移动遥操作 | 双模式 | • 键盘:轮式/人形底盘(vx, vy, vθ) • VR:手部关键点 → 逆运动学 → 机械臂/五指手 |
数据集 | 1.15 k 轨迹 | 基础任务(抓放、开闭、推拉) 多阶段任务(客厅整理、卧室铺床、厨房热饭) 4 种机器人形态(G1、H1、Franka、X-Trainer) |
验证实验 | sim→real | π0 在 sim 预训练 + 3 条真机微调 → 29.3% 成功率 |
📊 关键结果
任务类别 | 最佳算法 | 成功率 | 备注 |
---|---|---|---|
基础操纵 | ACT | 66–84% | 短序列,动作块机制有效 |
多阶段长任务 | π0 | 20–30% | 语言+视觉预训练带来长程结构理解 |
sim→real 迁移 | π0 | 29.3% | 仅用 3 条真机演示即可收敛到可执行策略 |
🔍 亮点与局限
亮点 | 具体表现 |
---|---|
一站式 | 场景生成 + VR 采集 + 数据集 + 迁移验证全链路打通 |
高保真 | Unreal 渲染 + PBR 材质 + Isaac Sim 物理,缩小视觉/动力学差距 |
可扩展 | 新资产仅需一次语义标注,后续完全自动 |
局限 | 未来方向 |
---|---|
软体/布料尚未支持 | 引入可变形物体引擎 |
复杂长任务仍需真机微调 | 提升纯合成数据泛化能力 |
🧭 一句话收尾
AgentWorld 让研究者 “一键生成客厅,戴上 VR 手柄,十分钟就能攒出 100 条高质量演示”,为家庭级移动操作提供了开箱即用的仿真-真机闭环工具链。
CBDES MoE: Hierarchically Decoupled Mixture-of-Experts for Functional Modules in Autonomous Driving
arxiv 暂未开源
感知模块的 MoE,很神秘
CBDES-MoE 把传统 BEV 感知里“一条固定 CNN/Transformer 走到黑”的思路,升级成“多条异构主干并行,由轻量级路由器按需激活” 的 Mixture-of-Experts 架构。
🎯 痛点与动机
- 单一主干(ResNet/Swin/ConvNeXt/PVT)无法通吃所有天气、光照、视角变化。
- 现有动态卷积/可变形注意力只能在微观层面调参,宏观结构仍旧死板。
- MoE 在 NLP/通用视觉很火,但在多模态 BEV 感知里还没系统落地。
🧩 方案拆解(3 个关键词:异构专家、轻路由、软融合)
模块 | 作用 | 设计细节 |
---|---|---|
4 个异构专家 | 提供“风格”多样的视觉表征 | Swin-T、ResNet-50、ConvNeXt、PVT 各成一路,结构差异带来互补偏置 |
Self-Attention Router (SAR) | 0.1 ms 内决定“选哪位专家” | 小卷积 + 单层 MHA + MLP,输出 4-way softmax |
Top-1 稀疏激活 | 推理时只跑 1 个专家 | 训练用软加权(可导),推理用 top-1(快),算力从 K×→1× |
软融合 & 负载均衡 | 避免路由塌缩到一两个专家 | soft fusion 保证梯度稳定;额外 L_balance 让 4 专家使用率尽量平均 |
即插即用 | 不改 BEVFusion 其余流程 | 把原来的“相机 backbone”整块替换成 CBDES-MoE,后面 view-transform、LiDAR 融合、检测头全部复用 |
📊 nuScenes 结果(3D 检测)
模型 | mAP↑ | NDS↑ | 备注 |
---|---|---|---|
BEVFusion-Swin | 64.0 | 65.6 | 最强单主干 |
BEVFusion-ResNet | 63.3 | 65.2 | — |
BEVFusion-ConvNeXt | 61.6 | 65.2 | — |
BEVFusion-PVT | 62.4 | 65.7 | — |
CBDES-MoE (top-1) | 65.6 | 69.8 | 只跑 1 个专家,仍比所有单主干高 1.6 mAP / 4.1 NDS |
- 训练阶段 4 专家全部更新;推理阶段每张图片只激活 1 个,显存 & 延迟几乎与单主干持平。
- 消融显示:去掉负载均衡 → mAP 掉 2.2 点;把 4 专家换成同构 4×ResNet → 提升微弱,说明“异构”才是关键。