触觉 × VLA：把 Touch 作为输入/决策信号融入 VLA 的现状¶

一句话：真正把触觉(tactile/haptics/force)作为输入并公开展示实验收益的 VLA 工作其实不多——主流 VLA(RT-2、OpenVLA、π0、GR00T)仍是 V+L。但 2025H2→2026 这条线在快速变热。来源：老板/团队转发的 5 篇 survey（标注人 ding），下方已逐条联网核实并补充。

5 篇代表工作（已核实出处）¶

路线	代表	arXiv	关键思想	出处核实
双层触觉融合	VLA-Touch	2507.17294	高层语义(TLM)+低层 diffusion 触觉控制，不重训 base VLA(外挂式)。代码	✅ NUS（Harold Soh CLeAR + Mike Shou SHOW Lab）
触觉推理	Tactile-VLA	2507.09160	VLM 已含交互常识、缺 tactile grounding；位置+力混合控制，少量演示激活零样本接触泛化	⚠️ 更正：survey 写"Surrey/UK"是错的，实为清华 / UESTC / SJTU，Yang Gao 组(Jialei Huang, Fanqi Lin, Chuan Wen 等，2025-07-12)
接触门控	TacVLA	2603.12665	contact-aware gating：接触时才开触觉通道；触觉用低维 token 而非 image	✅ 真实(2026-03)；作者非 survey 所述"Ajoudani"，待定
仿真+RL 补触觉	TacCoRL	2606.11743	仿真补接触数据→sim-real co-train→RL；不靠大规模触觉预训练	✅ 真实；72.5% vs 50% baseline 数字属实(双臂 4 任务)
触觉蒸馏	HapticVLA	2603.15257	训练有触觉、推理无触觉：SA-RWFM 教师 → 蒸馏出 tactile token 给学生 VLA 预测	✅ 真实(2026-03)，主打"无需推理期力传感器"

数字说明：TacCoRL 已核；TacVLA(+20%/+60%/×2.1)、HapticVLA(86.7%) 为各论文自述，口径不一、跨工作不可直接比。

扩展 landscape（我们核实时补的，比原 survey 更深）¶

原 survey 只给了 5 篇，实际这条线已成片。值得纳入： - ⭐ TacForeSight（2606.11184）：Force-Guided Tactile World Model——在压缩隐空间预测触觉潜变量(TacForceWM)+ gating 融合视触觉，实时推理。直接命中"World model × tactile latent"，且与 LaWAM 隐空间世界模型同源思路。（Fudan 丁文超 / 颜水成等） - OmniVTLA（2508.08706）：语义对齐的 Vision-Tactile-Language-Action。 - TA-VLA（2509.07962）：Torque-aware VLA（力矩感知，接你 State 表里的 force/torque）。 - TaF-VLA（2601.20321）：Tactile-Force Alignment。 - FD-VLA（2602.02142）：Force-Distilled VLA（另一条"蒸馏"路线，可与 HapticVLA 对比）。 - 资源：Awesome-Touch 列表（github.com/linchangyi1/Awesome-Touch），触觉感知/IL/RL/VLA/WM 持续收录。

关键洞见¶

触觉不该常开，应像 attention 一样按接触事件触发(TacVLA gating)——全篇最反直觉、最可操作的一条。TacForeSight 也用 gating，说明这正在成为共识。
VLM 已隐含物体交互常识，瓶颈是 tactile grounding 而非知识(Tactile-VLA)。
硬件贵 → 蒸馏路线(训练用触觉、推理省掉)：HapticVLA / FD-VLA 两家，工程最现实。
外挂 > 重训：VLA-Touch 证明可不动 base VLA 加触觉。
趋势：纯 VLA → V+L+A+T(Touch) → +World Model（TacForeSight 已经走到第三步）。

🔗 接我已有的上下文（KB 价值所在，别家 AI 给不了）¶

我 [06-23] 的 idea：把触觉当"特殊图片"早融合进视觉通路。
新判断 [06-28]（被调研激活）：纯"特殊图片"= always-on 早融合，正撞上 TacVLA 指出的"触觉噪声污染"——非接触阶段反而掉点。→ 需补 contact-gating(接触时才注入)。这个早期想法就此判定为「已被否决/需大改」（详见汇报草稿）。
注：TacVLA 还明确反对"把触觉当 image"，主张低维 token——正好否掉我"特殊图片"的表示方式。
我的 State 表已含 force/torque：触觉有 3 个注入点(image / state / token)，我之前只想到 image。TA-VLA 走的就是 torque/state 这路。
我在追 LaWAM 隐空间世界模型：TacForeSight 就是"触觉版 LaWAM" → 我下一个该精读的。

下一步（boss 要求深入调研）¶

[ ] 精读 TacForeSight（与 LaWAM 对照：隐空间预测 + gating）。
[ ] 把 TacVLA 的 gating 设计读细，作为修正我早期 idea 的具体方案。
[ ] 对比两条蒸馏路线 HapticVLA vs FD-VLA。
[ ] 核 TacVLA 真实作者/单位（survey "Ajoudani" 存疑）。