VT-WM:给世界模型加触觉,想象不再"穿模"¶
📌 一句话省流:纯视觉世界模型在遮挡/接触时会"幻觉"(物体消失/瞬移/违反物理);VT-WM 把触觉图并进隐空间世界模型,给接触做"物理锚定",想象更真、零样本规划更准。
🎬 演示:无明确项目页(arXiv;项目页待补)
🧰 对我们(可用性速判)¶
- 对我们的用处:视触觉世界模型标杆,"触觉补视觉幻觉"讲得最清;是 idea1 的镜子/对照。
- 真实性(前期):高(Meta/UW 大组 + 全文 + 清晰数字)。证据 B+。
- 训练/微调资源:latent-state WM;规模/算力正文未细摘;触觉为视觉式。
- 能借多少(开源):代码未确认(preprint);现借思路。
- 可用性结论:思路对照为主;代码待确认。
要点(全文核实)¶
- 首个多任务视触觉世界模型:latent-state WM,把视觉+触觉图投到隐空间,学动作条件的隐空间动力学,用于"想象中规划"。📄
- 数字:想象保真 物体恒存 +33%、遵守运动定律 +29%;真机零样本规划 最高 +35%(多步接触任务增益最大);少量演示即可迁移新任务。📄
- 团队:UW + FAIR/Meta(Higuera/Mukadam/Meier);触觉为视觉式(GelSight/DIGIT)。📄
🔎 证据 / 来源¶
- arXiv 2602.06001(2026-02,preprint)📄;代码未确认。证据 B+(大组+全文+清晰数字,缺开源确认)。
💡 与我们的关系(判断来源:🤖Claude,待复核)¶
- "视觉+触觉联合世界模型"方向的代表:该"联合"方向已有 VT-WM 与 卡片-OmniVTA 等工作。
- 路线差异(待复核):VT-WM 用触觉图、做像素/想象规划,与 卡片-TacForeSight×卡片-LaWAM 的隐空间预测路线不同。
- 价值:该读——它把"触觉补视觉幻觉"讲得最清楚,是这条线的标杆对照。
来源¶
- [1] arXiv 2602.06001 · 本地
papers/VT-WM-VisuoTactileWorldModels-2602.06001.pdf