VLA-Touch:给现成 VLA 在两个层级"贴"触觉,不动主体¶
📌 一句话省流:仿人神经系统分两层贴触觉——规划层用触觉-语言模型(Octopi)把触感翻成文字("软/硬/粗糙")喂给 GPT-4o 规划;控制层用一个 interpolant 扩散控制器(BRIDGeR)拿触觉力信号精修 base VLA(RDT-1B)生成的动作。全程不微调 base VLA。
🧰 对我们(可用性速判)¶
- 对我们的用处:最可上手——不重训 base VLA、外挂触觉;想给现有 VLA(OpenVLA/π0)试触觉先用它。
- 真实性(前期):高(全文+完整消融+代码开源)。证据 B+。
- 训练/微调资源:建在开源 RDT-1B+Octopi+BRIDGeR;只训外挂控制器(轻);硬件 Franka+Robotiq+GelSight Mini+RealSense+RTX4090(~¥8–12万);约 3–5 周起步。
- 能借多少(开源):✅ 代码(部分:控制器训练脚本)+依赖件全开源;数据需申请。
- 可用性结论:直接可用/最快上手(这批最实在)。
亮点到底在哪(读全文后定位)¶
- 亮点在"系统设计/解耦":双层 + 模块化、不重训——可给任意现成 VLA(OpenVLA/π0)"贴"触觉。控制侧的巧点是 BRIDGeR 用随机插值从"VLA 动作分布"出发去精修(而非从高斯噪声),比 RNN 残差控制器更能抓多模态动作分布。[1]
- 消融证实"两层都不可少":去掉规划层触觉 → Cup −44% / Wipe −58% / Peel −14%;去掉控制层 → −33% / −58% / −43%。控制器内部,去触觉(Cup 放置 −50%/Wipe −42%/Peel −50%)、去视觉(−30% 量级)都掉,视触觉都要。[1]
关键数字(全文核实)¶
- 规划效率最高 +40%;操作成功率最高 +35%(vs 纯视觉)。[1]
- interpolant 控制器 > 残差 > 原始 RDT:比 RDT 提 Cup +42% / Wipe +140% / Peel +67%。Table 1 例:Cup pick 12/20、完整 Wipe 12/20、完整 Peel 10/20(均为三法最高)。[1]
- 规划:纯图像 GPT-4o≈瞎猜;喂原始触觉图能判粗糙(100%)但力(50%)/硬度(60%)弱;喂 Octopi 语言描述 → 力 90%、硬度 75%。[1]
🔎 证据与可信度¶
- 论文:arXiv 2507.17294(NUS CLeAR,Bi/Ma/Hao/Shou/Soh)✅ 全文已读。
- 代码:github jxbi1010/VLA-Touch ✅已开源(论文正文声明 open-sourced);处理后数据需申请。
- 第三方复现:暂无。
- 证据等级:B+(开源代码 + 完整消融 + 全文,这批里证据最硬)→ 权重:中(偏上)。
🧪 复现条件与成本(暂不亲做,只估)¶
- 硬件:Franka Emika Panda + Robotiq 2F-140 + GelSight Mini(视触觉, 7×9 marker) + 2× RealSense + RTX4090。整套约 ¥8–12 万(GelSight Mini 便宜,~$X 千)。
- 依赖:建在开源 RDT-1B(base VLA) + Octopi(TLM) + BRIDGeR(控制器) + GPT-4o(规划)。
- 数据:控制器需"VLA动作↔专家动作"配对集(从演示采,需申请或自采)。
- 时间估计:依赖件都开源 + 代码可用 → 约 3–5 周起步(这批最快)。
- 侧证判价值:① 代码开源(最实在) ② 依赖件全开源 ③ 消融充分 ④ 仅 3 个真机任务、每项 20 trials(样本偏小) ⑤ GelSight Mini 商用可得。
🧱 局限(正文 §6)¶
- gripper 与 Octopi 预训练数据不一致 → 接触测量有偏(尤其硬度判断)。
- 只验证了"跨位置/物体"泛化,未验证跨任务(要更多训练)。
- interpolant 控制器仅 8Hz,没用上高频触觉(≥25Hz)——动态接触下有提升空间(作者列为未来"事件触发推理"方向,与 TacVLA gating 呼应)。
💡 我的批注 / 判断¶
- 最契合"不重训"取向、最可上手:想给我们现有 VLA 试触觉,首选这条(代码开源、依赖件开源)。
- 与 卡片-TacVLA 互补:VLA-Touch 外挂精修(轻)、TacVLA 改内部加 gating token(深)。
- 它自己也想做"事件触发推理"——这正是 TacVLA/TacForeSight 的 gating 思想,说明"接触才触发"是跨工作共识(再次否掉我 06-23 触觉常开/当图片)。
来源编号¶
- [1] arXiv 2507.17294 · 代码 · 本地
papers/VLA-Touch-2507.17294.pdf(全文精读 2026-06-28)