跳转至

触觉 × VLA:把 Touch 作为输入/决策信号融入 VLA 的现状

一句话:真正把触觉(tactile/haptics/force)作为输入并公开展示实验收益的 VLA 工作其实不多——主流 VLA(RT-2、OpenVLA、π0、GR00T)仍是 V+L。但 2025H2→2026 这条线在快速变热。 来源:老板/团队转发的 5 篇 survey(标注人 ding),下方已逐条联网核实并补充。

5 篇代表工作(已核实出处)

路线 代表 arXiv 关键思想 出处核实
双层触觉融合 VLA-Touch 2507.17294 高层语义(TLM)+低层 diffusion 触觉控制,不重训 base VLA(外挂式)。代码 ✅ NUS(Harold Soh CLeAR + Mike Shou SHOW Lab)
触觉推理 Tactile-VLA 2507.09160 VLM 已含交互常识、缺 tactile grounding;位置+力混合控制,少量演示激活零样本接触泛化 ⚠️ 更正:survey 写"Surrey/UK"是错的,实为清华 / UESTC / SJTU,Yang Gao 组(Jialei Huang, Fanqi Lin, Chuan Wen 等,2025-07-12)
接触门控 TacVLA 2603.12665 contact-aware gating:接触时才开触觉通道;触觉用低维 token 而非 image ✅ 真实(2026-03);作者非 survey 所述"Ajoudani",待定
仿真+RL 补触觉 TacCoRL 2606.11743 仿真补接触数据→sim-real co-train→RL;不靠大规模触觉预训练 ✅ 真实;72.5% vs 50% baseline 数字属实(双臂 4 任务)
触觉蒸馏 HapticVLA 2603.15257 训练有触觉、推理无触觉:SA-RWFM 教师 → 蒸馏出 tactile token 给学生 VLA 预测 ✅ 真实(2026-03),主打"无需推理期力传感器"

数字说明:TacCoRL 已核;TacVLA(+20%/+60%/×2.1)、HapticVLA(86.7%) 为各论文自述,口径不一、跨工作不可直接比。

扩展 landscape(我们核实时补的,比原 survey 更深)

原 survey 只给了 5 篇,实际这条线已成片。值得纳入: - ⭐ TacForeSight2606.11184):Force-Guided Tactile World Model——在压缩隐空间预测触觉潜变量(TacForceWM)+ gating 融合视触觉,实时推理。直接命中"World model × tactile latent",且与 LaWAM 隐空间世界模型同源思路。(Fudan 丁文超 / 颜水成 等) - OmniVTLA2508.08706):语义对齐的 Vision-Tactile-Language-Action。 - TA-VLA2509.07962):Torque-aware VLA(力矩感知,接你 State 表里的 force/torque)。 - TaF-VLA2601.20321):Tactile-Force Alignment。 - FD-VLA2602.02142):Force-Distilled VLA(另一条"蒸馏"路线,可与 HapticVLA 对比)。 - 资源:Awesome-Touch 列表(github.com/linchangyi1/Awesome-Touch),触觉感知/IL/RL/VLA/WM 持续收录。

关键洞见

  • 触觉不该常开,应像 attention 一样按接触事件触发(TacVLA gating)——全篇最反直觉、最可操作的一条。TacForeSight 也用 gating,说明这正在成为共识。
  • VLM 已隐含物体交互常识,瓶颈是 tactile grounding 而非知识(Tactile-VLA)。
  • 硬件贵 → 蒸馏路线(训练用触觉、推理省掉):HapticVLA / FD-VLA 两家,工程最现实。
  • 外挂 > 重训:VLA-Touch 证明可不动 base VLA 加触觉。
  • 趋势:纯 VLA → V+L+A+T(Touch)+World Model(TacForeSight 已经走到第三步)。

🔗 接我已有的上下文(KB 价值所在,别家 AI 给不了)

  • 我 [06-23] 的 idea:把触觉当"特殊图片"早融合进视觉通路。
  • 新判断 [06-28](被调研激活):纯"特殊图片"= always-on 早融合,正撞上 TacVLA 指出的"触觉噪声污染"——非接触阶段反而掉点。→ 需补 contact-gating(接触时才注入)这个早期想法就此判定为「已被否决/需大改」(详见汇报草稿)。
  • 注:TacVLA 还明确反对"把触觉当 image",主张低维 token——正好否掉我"特殊图片"的表示方式。
  • 我的 State 表已含 force/torque:触觉有 3 个注入点(image / state / token),我之前只想到 image。TA-VLA 走的就是 torque/state 这路。
  • 我在追 LaWAM 隐空间世界模型TacForeSight 就是"触觉版 LaWAM" → 我下一个该精读的。

下一步(boss 要求深入调研)

  • [ ] 精读 TacForeSight(与 LaWAM 对照:隐空间预测 + gating)。
  • [ ] 把 TacVLA 的 gating 设计读细,作为修正我早期 idea 的具体方案。
  • [ ] 对比两条蒸馏路线 HapticVLA vs FD-VLA。
  • [ ] 核 TacVLA 真实作者/单位(survey "Ajoudani" 存疑)。