综述 · 触觉与 VLA：有哪几条路线（中文路线总览）¶

自己收集整理的中文综述，让人一眼看清这条领域有哪些路线、各自代表作、往哪走。取材：综述 Tactile Robotics: Past and Future (2512.01106)、When Vision Meets Touch (2406.12226) + 本库 12 张精读卡片。原创综合，非逐字翻译；事实以原文为准。

0. 为什么机器人需要触觉¶

视觉有结构性盲区：遮挡、接触状态、材质软硬、滑动、力大小都看不准。主流 VLA（RT-2/OpenVLA/π0/GR00T）只有"视觉+语言"，在接触密集任务(插拔、灵巧抓取、擦拭)上是短板。触觉提供局部、实时的接触信号，是补这块的关键。

1. 五条技术路线¶

flowchart LR
  A["①传感器<br/>GelSight/DIGIT/阵列"] --> B["②表征<br/>T3/AnyTouch/TVL"]
  B --> C["③世界模型<br/>LaWAM/TacForeSight/VT-WM/OmniVTA"]
  B --> D["④VLA融合<br/>VLA-Touch/Tactile-VLA/TacVLA"]
  C --> D
  E["⑤控制·门控<br/>AdapTac/TacVLA/TacForeSight"] -.贯穿.-> D

① 传感器：视觉式(GelSight/DIGIT，高分辨、出"触觉图") vs 阵列式(taxel，低分辨)。是一切的物理起点；不标准、五花八门是老大难。

② 表征（把杂牌触觉统一，接大模型的地基）：卡片-T3(跨传感器可迁移+300万数据集)、卡片-AnyTouch(多传感器静/动统一)、卡片-TVL(触-视-语对齐+伪标注配方)。全开源、最成熟、可直接拿来用。

③ 世界模型（先"预判未来"再动作，最新最热）：卡片-LaWAM(视觉隐空间一步预测)、卡片-TacForeSight(用力预判触觉)、卡片-VT-WM/卡片-OmniVTA(视触觉联合预测)。机会最大、也最拥挤。

④ VLA 融合（把触觉接进通用策略）：卡片-VLA-Touch(外挂不重训，最可上手)、卡片-Tactile-VLA(把力写进动作空间→语言调力)、卡片-TacVLA(接触门控+低维token)。

⑤ 控制·门控（怎么用触觉，贯穿全栈）：卡片-AdapTac-PredictiveForceAttention(力引导自适应融合)、门控演进=事件触发→硬阈值(卡片-TacVLA)→可学α(卡片-TacForeSight)。

2. 三个趋势¶

V+L+A → +T(Touch) → +World Model：从纯视觉语言动作，到加触觉，再到"先在隐空间预判未来"。
门控从"硬阈值"走向"可学"：触觉不常开、按接触触发，且权重可学。
免触觉硬件部署：触觉传感器贵/易损 → 蒸馏(卡片-FD-VLA、HapticVLA)，训练用触觉、推理不用。

3. 我们的位置与机会¶

地基现成：表征层全开源，直接用 T3/AnyTouch 当触觉编码器起步。
机会在③世界模型：视觉(LaWAM)与触觉(TacForeSight)两条隐空间联合是热点(已有 VT-WM/OmniVTA)，差异化点 = 腕力跨模态条件 + 低成本硬件 + 端侧实时。
详见全景图-触觉VLA体系与各卡片的"对我们(可用性速判)"。

⚠️ 本综述为 🤖Claude 综合，结论性判断待人复核；具体数字以各论文/卡片来源为准。