跳转至

机器人知识库

LAPA —— 从无标签视频学"潜动作"，免真机动作标注预训练 VLA

LAPA（免动作标签·从视频预训练 VLA 代表作）¶

📌 一句话：互联网视频没有机器人动作标签，怎么用？LAPA 用 VQ-VAE 学帧间"量化潜动作"(不需预设动作)，再让 VLM 据观测+指令预测潜动作做行为克隆 —— 无需真机动作标注即可预训练 VLA。 🎬 论文 ⚠️ 代表作占位卡：基于摘要，未精读全文。

🧰 对我们（速判）¶

"数据标注"主题的关键代表：直接绕开最贵的"动作标注"，从海量视频学——是数据瓶颈的一条破法。
真实性：高（ICLR 2025，影响大，有后续 ConLA 改进）→ 证据 A。
能借：潜动作(VQ-VAE)思路；与触觉的"隐空间"思想相通(见卡片-LaWAM decoder-repurpose、卡片-TacForeSight)。

关键（摘要级）¶

VQ-VAE 量化潜动作 → VLM 预测潜动作 → 行为克隆；可吃 internet-scale 无动作标签视频。📄
后续 ConLA（2602.00557）在 SimplerEnv 上超 LAPA +12.5%，甚至超直接用真机轨迹预训的 +1.1%。📄

与我们的关系¶

属 5-学习基础/数据与标注(见概念-机器人数据与标注)：代表"省标注"路线。
"潜动作"与本库"隐空间世界模型"是同一隐空间家族的不同用法(一个学动作、一个学动力学)。

来源¶

📄 Latent Action Pretraining from Videos, arXiv 2410.11758（ICLR 2025）