跳转至

VLA-Touch:给现成 VLA 在两个层级"贴"触觉,不动主体

📌 一句话省流:仿人神经系统分两层贴触觉——规划层用触觉-语言模型(Octopi)把触感翻成文字("软/硬/粗糙")喂给 GPT-4o 规划;控制层用一个 interpolant 扩散控制器(BRIDGeR)拿触觉力信号精修 base VLA(RDT-1B)生成的动作。全程不微调 base VLA。

🎬 演示:项目页 jxbi1010.github.io/vla-touch-gh-pages · 代码

🧰 对我们(可用性速判)

  • 对我们的用处最可上手——不重训 base VLA、外挂触觉;想给现有 VLA(OpenVLA/π0)试触觉先用它
  • 真实性(前期):高(全文+完整消融+代码开源)。证据 B+。
  • 训练/微调资源:建在开源 RDT-1B+Octopi+BRIDGeR;只训外挂控制器(轻);硬件 Franka+Robotiq+GelSight Mini+RealSense+RTX4090(~¥8–12万);约 3–5 周起步。
  • 能借多少(开源):✅ 代码(部分:控制器训练脚本)+依赖件全开源;数据需申请。
  • 可用性结论直接可用/最快上手(这批最实在)。

亮点到底在哪(读全文后定位)

  • 亮点在"系统设计/解耦":双层 + 模块化、不重训——可给任意现成 VLA(OpenVLA/π0)"贴"触觉。控制侧的巧点是 BRIDGeR 用随机插值从"VLA 动作分布"出发去精修(而非从高斯噪声),比 RNN 残差控制器更能抓多模态动作分布。[1]
  • 消融证实"两层都不可少":去掉规划层触觉 → Cup −44% / Wipe −58% / Peel −14%;去掉控制层 → −33% / −58% / −43%。控制器内部,去触觉(Cup 放置 −50%/Wipe −42%/Peel −50%)、去视觉(−30% 量级)都掉,视触觉都要。[1]

关键数字(全文核实)

  • 规划效率最高 +40%;操作成功率最高 +35%(vs 纯视觉)。[1]
  • interpolant 控制器 > 残差 > 原始 RDT:比 RDT 提 Cup +42% / Wipe +140% / Peel +67%。Table 1 例:Cup pick 12/20、完整 Wipe 12/20、完整 Peel 10/20(均为三法最高)。[1]
  • 规划:纯图像 GPT-4o≈瞎猜;喂原始触觉图能判粗糙(100%)但力(50%)/硬度(60%)弱;喂 Octopi 语言描述 → 力 90%、硬度 75%。[1]

🔎 证据与可信度

  • 论文arXiv 2507.17294(NUS CLeAR,Bi/Ma/Hao/Shou/Soh)✅ 全文已读。
  • 代码github jxbi1010/VLA-Touch已开源(论文正文声明 open-sourced);处理后数据需申请。
  • 第三方复现:暂无。
  • 证据等级:B+(开源代码 + 完整消融 + 全文,这批里证据最硬)→ 权重:中(偏上)

🧪 复现条件与成本(暂不亲做,只估)

  • 硬件:Franka Emika Panda + Robotiq 2F-140 + GelSight Mini(视触觉, 7×9 marker) + 2× RealSense + RTX4090。整套约 ¥8–12 万(GelSight Mini 便宜,~$X 千)。
  • 依赖:建在开源 RDT-1B(base VLA) + Octopi(TLM) + BRIDGeR(控制器) + GPT-4o(规划)。
  • 数据:控制器需"VLA动作↔专家动作"配对集(从演示采,需申请或自采)。
  • 时间估计:依赖件都开源 + 代码可用 → 约 3–5 周起步(这批最快)
  • 侧证判价值:① 代码开源(最实在) ② 依赖件全开源 ③ 消融充分 ④ 仅 3 个真机任务、每项 20 trials(样本偏小) ⑤ GelSight Mini 商用可得。

🧱 局限(正文 §6)

  • gripper 与 Octopi 预训练数据不一致 → 接触测量有偏(尤其硬度判断)。
  • 只验证了"跨位置/物体"泛化,未验证跨任务(要更多训练)。
  • interpolant 控制器仅 8Hz没用上高频触觉(≥25Hz)——动态接触下有提升空间(作者列为未来"事件触发推理"方向,与 TacVLA gating 呼应)。

💡 我的批注 / 判断

  • 最契合"不重训"取向、最可上手:想给我们现有 VLA 试触觉,首选这条(代码开源、依赖件开源)。
  • 卡片-TacVLA 互补:VLA-Touch 外挂精修(轻)、TacVLA 改内部加 gating token(深)。
  • 它自己也想做"事件触发推理"——这正是 TacVLA/TacForeSight 的 gating 思想,说明"接触才触发"是跨工作共识(再次否掉我 06-23 触觉常开/当图片)。

来源编号