跳转至

综述 · 触觉与 VLA:有哪几条路线(中文路线总览)

自己收集整理的中文综述,让人一眼看清这条领域有哪些路线、各自代表作、往哪走。 取材:综述 Tactile Robotics: Past and Future (2512.01106)When Vision Meets Touch (2406.12226) + 本库 12 张精读卡片。原创综合,非逐字翻译;事实以原文为准。

0. 为什么机器人需要触觉

视觉有结构性盲区:遮挡、接触状态、材质软硬、滑动、力大小都看不准。主流 VLA(RT-2/OpenVLA/π0/GR00T)只有"视觉+语言",在接触密集任务(插拔、灵巧抓取、擦拭)上是短板。触觉提供局部、实时的接触信号,是补这块的关键。

1. 五条技术路线

flowchart LR
  A["①传感器<br/>GelSight/DIGIT/阵列"] --> B["②表征<br/>T3/AnyTouch/TVL"]
  B --> C["③世界模型<br/>LaWAM/TacForeSight/VT-WM/OmniVTA"]
  B --> D["④VLA融合<br/>VLA-Touch/Tactile-VLA/TacVLA"]
  C --> D
  E["⑤控制·门控<br/>AdapTac/TacVLA/TacForeSight"] -.贯穿.-> D

① 传感器:视觉式(GelSight/DIGIT,高分辨、出"触觉图") vs 阵列式(taxel,低分辨)。是一切的物理起点;不标准、五花八门是老大难。

② 表征(把杂牌触觉统一,接大模型的地基)卡片-T3(跨传感器可迁移+300万数据集)、卡片-AnyTouch(多传感器静/动统一)、卡片-TVL(触-视-语对齐+伪标注配方)。全开源、最成熟、可直接拿来用

③ 世界模型(先"预判未来"再动作,最新最热)卡片-LaWAM(视觉隐空间一步预测)、卡片-TacForeSight(用力预判触觉)、卡片-VT-WM/卡片-OmniVTA(视触觉联合预测)。机会最大、也最拥挤。

④ VLA 融合(把触觉接进通用策略)卡片-VLA-Touch(外挂不重训,最可上手)、卡片-Tactile-VLA(把力写进动作空间→语言调力)、卡片-TacVLA(接触门控+低维token)。

⑤ 控制·门控(怎么用触觉,贯穿全栈)卡片-AdapTac-PredictiveForceAttention(力引导自适应融合)、门控演进=事件触发→硬阈值(卡片-TacVLA)→可学α(卡片-TacForeSight)。

2. 三个趋势

  1. V+L+A → +T(Touch) → +World Model:从纯视觉语言动作,到加触觉,再到"先在隐空间预判未来"。
  2. 门控从"硬阈值"走向"可学":触觉不常开、按接触触发,且权重可学。
  3. 免触觉硬件部署:触觉传感器贵/易损 → 蒸馏(卡片-FD-VLA、HapticVLA),训练用触觉、推理不用。

3. 我们的位置与机会

  • 地基现成:表征层全开源,直接用 T3/AnyTouch 当触觉编码器起步。
  • 机会在③世界模型:视觉(LaWAM)与触觉(TacForeSight)两条隐空间联合是热点(已有 VT-WM/OmniVTA),差异化点 = 腕力跨模态条件 + 低成本硬件 + 端侧实时。
  • 详见 全景图-触觉VLA体系 与各卡片的"对我们(可用性速判)"。

⚠️ 本综述为 🤖Claude 综合,结论性判断待人复核;具体数字以各论文/卡片来源为准。