跳转至

机器人知识库

VLA-Touch：不重训 base VLA，在"规划+控制"两层外挂触觉

VLA-Touch：给现成 VLA 在两个层级"贴"触觉，不动主体¶

📌 一句话省流：仿人神经系统分两层贴触觉——规划层用触觉-语言模型(Octopi)把触感翻成文字("软/硬/粗糙")喂给 GPT-4o 规划；控制层用一个 interpolant 扩散控制器(BRIDGeR)拿触觉力信号精修 base VLA(RDT-1B)生成的动作。全程不微调 base VLA。

🎬 演示：项目页 jxbi1010.github.io/vla-touch-gh-pages · 代码

🧰 对我们（可用性速判）¶

对我们的用处：最可上手——不重训 base VLA、外挂触觉；想给现有 VLA(OpenVLA/π0)试触觉先用它。
真实性(前期)：高（全文+完整消融+代码开源）。证据 B+。
训练/微调资源：建在开源 RDT-1B+Octopi+BRIDGeR；只训外挂控制器(轻)；硬件 Franka+Robotiq+GelSight Mini+RealSense+RTX4090(~¥8–12万)；约 3–5 周起步。
能借多少(开源)：✅ 代码(部分:控制器训练脚本)+依赖件全开源；数据需申请。
可用性结论：直接可用/最快上手(这批最实在)。

亮点到底在哪（读全文后定位）¶

亮点在"系统设计/解耦"：双层 + 模块化、不重训——可给任意现成 VLA(OpenVLA/π0)"贴"触觉。控制侧的巧点是 BRIDGeR 用随机插值从"VLA 动作分布"出发去精修（而非从高斯噪声），比 RNN 残差控制器更能抓多模态动作分布。[1]
消融证实"两层都不可少"：去掉规划层触觉 → Cup −44% / Wipe −58% / Peel −14%；去掉控制层 → −33% / −58% / −43%。控制器内部，去触觉(Cup 放置 −50%/Wipe −42%/Peel −50%)、去视觉(−30% 量级)都掉，视触觉都要。[1]

关键数字（全文核实）¶

规划效率最高 +40%；操作成功率最高 +35%（vs 纯视觉）。[1]
interpolant 控制器 > 残差 > 原始 RDT：比 RDT 提 Cup +42% / Wipe +140% / Peel +67%。Table 1 例：Cup pick 12/20、完整 Wipe 12/20、完整 Peel 10/20（均为三法最高）。[1]
规划：纯图像 GPT-4o≈瞎猜；喂原始触觉图能判粗糙(100%)但力(50%)/硬度(60%)弱；喂 Octopi 语言描述 → 力 90%、硬度 75%。[1]

🔎 证据与可信度¶

论文：arXiv 2507.17294（NUS CLeAR，Bi/Ma/Hao/Shou/Soh）✅ 全文已读。
代码：github jxbi1010/VLA-Touch ✅已开源（论文正文声明 open-sourced）；处理后数据需申请。
第三方复现：暂无。
证据等级：B+（开源代码 + 完整消融 + 全文，这批里证据最硬）→ 权重：中(偏上)。

🧪 复现条件与成本（暂不亲做，只估）¶

硬件：Franka Emika Panda + Robotiq 2F-140 + GelSight Mini(视触觉, 7×9 marker) + 2× RealSense + RTX4090。整套约 ¥8–12 万（GelSight Mini 便宜，~$X 千）。
依赖：建在开源 RDT-1B(base VLA) + Octopi(TLM) + BRIDGeR(控制器) + GPT-4o(规划)。
数据：控制器需"VLA动作↔专家动作"配对集（从演示采，需申请或自采）。
时间估计：依赖件都开源 + 代码可用 → 约 3–5 周起步（这批最快）。
侧证判价值：① 代码开源(最实在) ② 依赖件全开源 ③ 消融充分 ④ 仅 3 个真机任务、每项 20 trials(样本偏小) ⑤ GelSight Mini 商用可得。

🧱 局限（正文 §6）¶

gripper 与 Octopi 预训练数据不一致 → 接触测量有偏（尤其硬度判断）。
只验证了"跨位置/物体"泛化，未验证跨任务（要更多训练）。
interpolant 控制器仅 8Hz，没用上高频触觉(≥25Hz)——动态接触下有提升空间（作者列为未来"事件触发推理"方向，与 TacVLA gating 呼应）。

💡 我的批注 / 判断¶

最契合"不重训"取向、最可上手：想给我们现有 VLA 试触觉，首选这条（代码开源、依赖件开源）。
与卡片-TacVLA 互补：VLA-Touch 外挂精修(轻)、TacVLA 改内部加 gating token(深)。
它自己也想做"事件触发推理"——这正是 TacVLA/TacForeSight 的 gating 思想，说明"接触才触发"是跨工作共识（再次否掉我 06-23 触觉常开/当图片）。

来源编号¶

[1] arXiv 2507.17294 · 代码 · 本地 papers/VLA-Touch-2507.17294.pdf（全文精读 2026-06-28）