跳转至

机器人知识库

LaWAM：把"被丢弃的 latent-action 解码器"捡回来当世界模型

LaWAM：把别人"训完就扔的解码器"变成免费的世界模型¶

📌 一句话省流：主流 latent-action 预训练训出一个逆动力学编码器拿"潜动作"后，把配套的 decoder 扔掉。LaWAM 的核心洞见——这个 decoder 其实就是个现成的世界模型：留着它，用它一次前向预测未来隐空间特征（"隐视觉子目标"）去条件化动作，既不生成像素也不迭代，于是又快又准。

🎬 演示：无独立项目页（仅 arXiv）

🧰 对我们（可用性速判）¶

对我们的用处：视觉隐空间世界模型，"双隐空间"的视觉那条腿；"复用被丢弃的 latent-action 解码器"思路可借。
真实性(前期)：核心数字已核(B+)；细节规格(2.3B/230M/Jetson)部分待验证。
训练/微调资源：训练 A100/H100 多卡，2.3B 模型；推理 187ms@A100。
能借多少(开源)：代码/权重未确认开源 → 目前主要借思路，不一定拿得到模型。
可用性结论：思路可借；代码未确认、直接用待定。⚠️ 怕相机运动(移动/人形慎用)。

亮点到底在哪（读全文后定位）¶

亮点在"方法/洞见"，不在效率：效率(187ms)是结果，真正聪明的是 "repurpose 被丢弃的 LAM decoder 作 LaWM" 这一步。[1]
消融证实这就是增益来源：去掉 LaWM 掉点最多（尤其 LIBERO-Long）→ "显式隐子目标条件"是主要贡献，不是参数堆出来的。其次重要：latent-action 蒸馏、knowledge insulation(让 LaWM 不被 action-expert 梯度污染)。[1]
一步非迭代：相对像素级 WAM 的迭代 rollout，单次前向出子目标 → 24× 延迟优势的来源。[1]

关键数字（全文核实）¶

LIBERO 98.6%；RoboTwin 92.64%(clean)/89.80%(随机)（超 Fast-WAM 91.98/90.52）；真机 90.0% 均值（best；π0.5 83.3、Fast-WAM 63.3）。[1]
延迟 187ms/动作块（A100，10 步去噪）；基线表：π0/π0.5 220ms、GR00T-N1.6 259ms、Cosmos-Policy 2.1B 1413ms、LingBot-VA 5.5B 4482ms、Fast-WAM 6B 486ms。比像素级 WAM 快至 24×。[1]
规模：总 2.3B；LaWM 仅 230M（比 5B WAN 主干少约 95% 世界建模参数）；骨干=Qwen3-VL 前 16 层 + 4 个 Alternate-DiT 块；视觉 = DINOv3 ViT-B/16（冻结）。[1]

🔎 证据与可信度¶

论文：arXiv 2606.15768（2026-06；Jialei Chen, Kai Wang, Chao Yu 等）✅ 全文已读。
代码/数据：未发现项目页/开源仓库 → 未确认（待查；查到可升级）。
第三方复现/评阅：暂无（新）。
证据等级：B（偏上）——全文 + 核心数字 + 基线表均核实，扣分仅因代码/数据开源未确认 → 权重：中偏上。

⚠️ 针对库内 06-26 旧笔记：分三档重标¶

✅ 已核（真实）：187ms、24×、Table 基线、2.3B/230M、DINOv3 冻结。
🔶 合理推断（可保留，标"推断"）：显存 ≈ 2.3B×2B(FP16) ≈ 4.6GB（+KV ~6–6.5GB；量化更少）——从已核参数推得，非论文原文。
🟡 待验证（勿当结论、需二次确认）：Jetson Orin / 30Hz / TensorRT <200ms / 4500h 视频 / 8×H800——正文没有，既非论文也推不出。杜撰 = 把这类当"论文报告了"去陈述，这才是要杜绝的。

🧪 复现条件与成本（暂不亲做，只估）¶

算力：训练用 A100/H100（多卡）；推理 A100 即 187ms。
数据/基准：LIBERO、RoboTwin 为公开仿真基准（无需特殊硬件）；真机需机械臂。
代码：未确认开源 → 若不放需按论文重写（latent-action 蒸馏 + decoder-as-WM + DiT 动作头），成本中高。
时间估计：仿真复现（若有码）2–4 周；无码重写 +1–2 月。
侧证判价值：① 核心数字/基线全文可核(强) ② 代码/数据未确认(弱项) ③ 消融充分、贡献定位清晰(强) ④ 无第三方复现(新)。

🧱 局限（正文 §5，对我们很关键）¶

怕相机运动：相机自身大幅晃动/视角突变时（如第一人称、移动/人形机器人），潜动作空间学不好 → 当前形态不适合移动/人形。← 若我们的"双隐空间"想用在移动平台，这是硬约束。
形变物体：布料等细微形变特征分辨率不足，建模不可靠（虽然叠毛巾仍有 90%）。

💡 我的批注 / 判断¶

与卡片-TacForeSight 对照（详见 TacForeSight×LaWAM-对照）：两者同构（隐空间一步预测+小推演器+gating/条件），LaWAM 在视觉、TacForeSight 在触觉 → 支撑 💡 "双隐空间联合" idea（机器人与VLA）。
但"双隐空间"要落地需正视 LaWAM 的相机运动局限：若目标是移动/人形，得先解决自运动下的潜动作学习——这反而可能是我们的切入点。
decoder-repurpose 这个"废物利用"思路本身可迁移：触觉侧是否也有"训完被扔的模块"能当 WM？值得想。

来源编号¶

[1] arXiv 2606.15768（全文 HTML 精读 2026-06-28）· 本地 papers/LaWAM-2606.15768.pdf