LAPA(免动作标签·从视频预训练 VLA 代表作)¶
📌 一句话:互联网视频没有机器人动作标签,怎么用?LAPA 用 VQ-VAE 学帧间"量化潜动作"(不需预设动作),再让 VLM 据观测+指令预测潜动作做行为克隆 —— 无需真机动作标注即可预训练 VLA。 🎬 论文 ⚠️ 代表作占位卡:基于摘要,未精读全文。
🧰 对我们(速判)¶
- "数据标注"主题的关键代表:直接绕开最贵的"动作标注",从海量视频学——是数据瓶颈的一条破法。
- 真实性:高(ICLR 2025,影响大,有后续 ConLA 改进)→ 证据 A。
- 能借:潜动作(VQ-VAE)思路;与触觉的"隐空间"思想相通(见 卡片-LaWAM decoder-repurpose、卡片-TacForeSight)。
关键(摘要级)¶
- VQ-VAE 量化潜动作 → VLM 预测潜动作 → 行为克隆;可吃 internet-scale 无动作标签视频。📄
- 后续 ConLA(2602.00557)在 SimplerEnv 上超 LAPA +12.5%,甚至超直接用真机轨迹预训的 +1.1%。📄
与我们的关系¶
- 属 5-学习基础/数据与标注(见 概念-机器人数据与标注):代表"省标注"路线。
- "潜动作"与本库"隐空间世界模型"是同一隐空间家族的不同用法(一个学动作、一个学动力学)。