跳转至

机器人知识库

VT-WM：首个多任务视觉-触觉世界模型（Meta/UW）

VT-WM：给世界模型加触觉，想象不再"穿模"¶

📌 一句话省流：纯视觉世界模型在遮挡/接触时会"幻觉"(物体消失/瞬移/违反物理)；VT-WM 把触觉图并进隐空间世界模型，给接触做"物理锚定"，想象更真、零样本规划更准。

🎬 演示：无明确项目页（arXiv；项目页待补）

🧰 对我们（可用性速判）¶

对我们的用处：视触觉世界模型标杆，"触觉补视觉幻觉"讲得最清；是 idea1 的镜子/对照。
真实性(前期)：高（Meta/UW 大组 + 全文 + 清晰数字）。证据 B+。
训练/微调资源：latent-state WM；规模/算力正文未细摘；触觉为视觉式。
能借多少(开源)：代码未确认(preprint)；现借思路。
可用性结论：思路对照为主；代码待确认。

要点（全文核实）¶

首个多任务视触觉世界模型：latent-state WM，把视觉+触觉图投到隐空间，学动作条件的隐空间动力学，用于"想象中规划"。📄
数字：想象保真 物体恒存 +33%、遵守运动定律 +29%；真机零样本规划 最高 +35%(多步接触任务增益最大)；少量演示即可迁移新任务。📄
团队：UW + FAIR/Meta(Higuera/Mukadam/Meier)；触觉为视觉式(GelSight/DIGIT)。📄

🔎 证据 / 来源¶

arXiv 2602.06001（2026-02，preprint）📄；代码未确认。证据 B+（大组+全文+清晰数字，缺开源确认）。

💡 与我们的关系（判断来源：🤖Claude，待复核）¶

"视觉+触觉联合世界模型"方向的代表：该"联合"方向已有 VT-WM 与卡片-OmniVTA 等工作。
路线差异(待复核)：VT-WM 用触觉图、做像素/想象规划，与卡片-TacForeSight×卡片-LaWAM 的隐空间预测路线不同。
价值：该读——它把"触觉补视觉幻觉"讲得最清楚，是这条线的标杆对照。

来源¶

[1] arXiv 2602.06001 · 本地 papers/VT-WM-VisuoTactileWorldModels-2602.06001.pdf