跳转至

TacForeSight:让机器人"未接触先预判触感"的世界模型

📌 一句话省流:抓住"手腕受力的变化总比指尖触觉早一拍"这个规律,用高频力信号去提前预测触觉,让机器人在接触密集任务里前瞻控制而非被动反应;模型极小(~80M)、实时(20Hz)。

🎬 演示:项目页 tacforesight.github.io/ProjectPage(含视频)

🧰 对我们(可用性速判)

  • 对我们的用处:触觉隐空间世界模型(用力预判触觉),"双隐空间"的触觉那条腿;可学门控/前瞻设计可借。
  • 真实性(前期):高(全文+消融+项目页)。证据 B。
  • 训练/微调资源:模型小(WM 11.8M + policy 68.9M);150k steps×8×A100;推理 20Hz RTX4090D。硬件:xArm7+Robotiq+2×Xense触觉+6轴力矩+RealSense(~¥8–15万)。
  • 能借多少(开源):代码/数据承诺待发布(未放);现可借思路+架构。
  • 可用性结论:思路+架构可借;代码放出再直接用。需视触觉+力硬件。

亮点

  • 反直觉切入点:力→触觉是时序非对称的(力先变、触觉后到)——所以可以"用先到的力,预测还没到的触觉"。这是别家没强调的角度。[1]
  • 触觉世界模型 TacForceWM:在压缩隐空间里预测未来触觉潜变量,条件是 120Hz 腕部 6 轴力矩;不渲染高维触觉图,只推"要点"。[1]
  • 门控融合α=σ(MLP(触觉)),接触/动态时才放大触觉通道,避免噪声污染——与 TacVLA 的 gating 共识一致。[1]
  • 极小 + 实时:世界模型仅 11.8M、策略 68.9M,RTX4090D 上 20Hz。[1]

关键数字(每条带来源)

  • 5 个接触密集任务平均:常规 79.0%、扰动下 86.7%;多项显著超基线(如 Adjustment-P 85% vs 35%)。[1]
  • 消融:用腕力作条件 MSE 0.017 vs 不加条件 0.027 → 力条件确实关键。[1]
  • 训练:2700 force-tactile episodes,150k steps,8×A100。[1]

🔎 证据与可信度(源头决定权重)

  • 论文arXiv 2606.11184 ✅;项目页 ✅(Fudan 丁文超、颜水成 等)。
  • 代码 / 数据:项目页声明"models & datasets will be made publicly available"——承诺开源、尚未实际放出
  • 第三方评阅/复现:暂无(2026-06 太新)。
  • 证据等级:B(论文+项目页扎实,但数据/代码未落地、无外部验证)→ 权重:中
  • 判断:方向与数字可信度中上(有项目页、作者单位明确、消融自洽),但"承诺开源"在真放出前打折;待数据/代码发布或出现复现后可升 A

🧪 复现条件与成本(暂不亲做,只估)

  • 硬件:7-DoF xArm7 + Robotiq 2F-85 夹爪 + 2× Xense 视触觉传感器(GelSight 类,35×20 形变图) + UFactory 6 轴力矩传感器(120Hz) + RealSense D435。整套商用可得,估 ¥8–15 万(触觉传感器为主要变量)。
  • 数据:2700 条力-触觉接触 episode;若作者放出可省,否则需自采(接触密集任务采集慢)。
  • 算力:世界模型 150k steps × 8×A100(约数天);策略 flow-matching 另算。推理 RTX4090D 即可。
  • 时间估计:硬件到位 + 代码放出 → 约 1–2 个月小复现;若代码不放需重写,+1 个月。
  • 侧证判价值:① 数据/代码=承诺待发布(B) ② 硬件商用可得、可复现性中上 ③ 真机每任务仅 20 trials,样本偏小、留意挑任务嫌疑 ④ 无第三方复现(最大不确定)。

💡 我的批注 / 判断

  • 与 LaWAM 同构(详见 TacForeSight×LaWAM-对照):都是"隐空间预测未来 + 小推演器 + gating",只是 LaWAM 在视觉、它在触觉 → 隐空间世界模型是跨模态可复用范式
  • 它补了 LaWAM 没有的"跨模态因果条件"(用先行的力预测滞后的触觉),这个 trick 值得搬。
  • 由此长出 💡#idea [06-28] 双隐空间联合世界模型(视觉+触觉隐空间并联、力作条件、接触 gating)→ 记于 机器人与VLA。
  • 它否掉我早期"触觉当特殊图片":这里触觉是低维隐 token + 力条件预测,不是 image 早融合。

来源编号

  • [1] TacForeSight 全文与项目页:arXiv 2606.11184 · 项目页 · 本地 PDF papers/TacForeSight-触觉世界模型-2606.11184.pdf