LaWAM:把别人"训完就扔的解码器"变成免费的世界模型¶
📌 一句话省流:主流 latent-action 预训练训出一个逆动力学编码器拿"潜动作"后,把配套的 decoder 扔掉。LaWAM 的核心洞见——这个 decoder 其实就是个现成的世界模型:留着它,用它一次前向预测未来隐空间特征("隐视觉子目标")去条件化动作,既不生成像素也不迭代,于是又快又准。
🎬 演示:无独立项目页(仅 arXiv)
🧰 对我们(可用性速判)¶
- 对我们的用处:视觉隐空间世界模型,"双隐空间"的视觉那条腿;"复用被丢弃的 latent-action 解码器"思路可借。
- 真实性(前期):核心数字已核(B+);细节规格(2.3B/230M/Jetson)部分待验证。
- 训练/微调资源:训练 A100/H100 多卡,2.3B 模型;推理 187ms@A100。
- 能借多少(开源):代码/权重未确认开源 → 目前主要借思路,不一定拿得到模型。
- 可用性结论:思路可借;代码未确认、直接用待定。⚠️ 怕相机运动(移动/人形慎用)。
亮点到底在哪(读全文后定位)¶
- 亮点在"方法/洞见",不在效率:效率(187ms)是结果,真正聪明的是 "repurpose 被丢弃的 LAM decoder 作 LaWM" 这一步。[1]
- 消融证实这就是增益来源:去掉 LaWM 掉点最多(尤其 LIBERO-Long)→ "显式隐子目标条件"是主要贡献,不是参数堆出来的。其次重要:latent-action 蒸馏、knowledge insulation(让 LaWM 不被 action-expert 梯度污染)。[1]
- 一步非迭代:相对像素级 WAM 的迭代 rollout,单次前向出子目标 → 24× 延迟优势的来源。[1]
关键数字(全文核实)¶
- LIBERO 98.6%;RoboTwin 92.64%(clean)/89.80%(随机)(超 Fast-WAM 91.98/90.52);真机 90.0% 均值(best;π0.5 83.3、Fast-WAM 63.3)。[1]
- 延迟 187ms/动作块(A100,10 步去噪);基线表:π0/π0.5 220ms、GR00T-N1.6 259ms、Cosmos-Policy 2.1B 1413ms、LingBot-VA 5.5B 4482ms、Fast-WAM 6B 486ms。比像素级 WAM 快至 24×。[1]
- 规模:总 2.3B;LaWM 仅 230M(比 5B WAN 主干少约 95% 世界建模参数);骨干=Qwen3-VL 前 16 层 + 4 个 Alternate-DiT 块;视觉 = DINOv3 ViT-B/16(冻结)。[1]
🔎 证据与可信度¶
- 论文:arXiv 2606.15768(2026-06;Jialei Chen, Kai Wang, Chao Yu 等)✅ 全文已读。
- 代码/数据:未发现项目页/开源仓库 → 未确认(待查;查到可升级)。
- 第三方复现/评阅:暂无(新)。
- 证据等级:B(偏上)——全文 + 核心数字 + 基线表均核实,扣分仅因代码/数据开源未确认 → 权重:中偏上。
⚠️ 针对库内 06-26 旧笔记:分三档重标¶
- ✅ 已核(真实):187ms、24×、Table 基线、2.3B/230M、DINOv3 冻结。
- 🔶 合理推断(可保留,标"推断"):显存 ≈ 2.3B×2B(FP16) ≈ 4.6GB(+KV ~6–6.5GB;量化更少)——从已核参数推得,非论文原文。
- 🟡 待验证(勿当结论、需二次确认):Jetson Orin / 30Hz / TensorRT <200ms / 4500h 视频 / 8×H800——正文没有,既非论文也推不出。杜撰 = 把这类当"论文报告了"去陈述,这才是要杜绝的。
🧪 复现条件与成本(暂不亲做,只估)¶
- 算力:训练用 A100/H100(多卡);推理 A100 即 187ms。
- 数据/基准:LIBERO、RoboTwin 为公开仿真基准(无需特殊硬件);真机需机械臂。
- 代码:未确认开源 → 若不放需按论文重写(latent-action 蒸馏 + decoder-as-WM + DiT 动作头),成本中高。
- 时间估计:仿真复现(若有码)2–4 周;无码重写 +1–2 月。
- 侧证判价值:① 核心数字/基线全文可核(强) ② 代码/数据未确认(弱项) ③ 消融充分、贡献定位清晰(强) ④ 无第三方复现(新)。
🧱 局限(正文 §5,对我们很关键)¶
- 怕相机运动:相机自身大幅晃动/视角突变时(如第一人称、移动/人形机器人),潜动作空间学不好 → 当前形态不适合移动/人形。← 若我们的"双隐空间"想用在移动平台,这是硬约束。
- 形变物体:布料等细微形变特征分辨率不足,建模不可靠(虽然叠毛巾仍有 90%)。
💡 我的批注 / 判断¶
- 与 卡片-TacForeSight 对照(详见 TacForeSight×LaWAM-对照):两者同构(隐空间一步预测+小推演器+gating/条件),LaWAM 在视觉、TacForeSight 在触觉 → 支撑 💡 "双隐空间联合" idea(机器人与VLA)。
- 但"双隐空间"要落地需正视 LaWAM 的相机运动局限:若目标是移动/人形,得先解决自运动下的潜动作学习——这反而可能是我们的切入点。
- decoder-repurpose 这个"废物利用"思路本身可迁移:触觉侧是否也有"训完被扔的模块"能当 WM?值得想。
来源编号¶
- [1] arXiv 2606.15768(全文 HTML 精读 2026-06-28)· 本地
papers/LaWAM-2606.15768.pdf