触觉 × VLA · 一页全景图 & 体系框架¶
怎么用:这页是 9 张精读卡片 + 文献地图的"总览",给老板/团队一眼看清"这条线长什么样、我们卡在哪"。 配套:明细 触觉×机器人-文献地图与阅读方案。
🗺️ 分层全景图(自下而上:地基→前沿)¶
机器人接触式操作(灵巧手 / 双臂 / 插拔 / 抓取)
▲ 动作
┌───────────────────────────────────────────────────────────────────────┐
│ ④ VLA 融合层(把触觉接进通用策略) │
│ · VLA-Touch 外挂式·不重训(规划Octopi+控制BRIDGeR精修) [A-代码开源] │
│ · Tactile-VLA 力写进动作空间→语言零样本调力(π0) [B] │
│ · TacVLA 接触门控+低维token(Pi0.5+LoRA) [B] │
└───────────────────────────────────────────────────────────────────────┘
▲ 隐子目标 / 触觉token
┌───────────────────────────────────────────────────────────────────────┐
│ ③ 世界模型层(预测未来,给前瞻) │
│ · LaWAM 视觉隐空间一步预测(decoder复用) [B+] ┐ │
│ · TacForeSight 触觉隐空间预测(力→触觉,可学门控)[B] ┘ ←★我们要"联合"这两个│
└───────────────────────────────────────────────────────────────────────┘
▲ 统一/可迁移触觉表征
┌───────────────────────────────────────────────────────────────────────┐
│ ② 表征层(地基·全开源·A 级) │
│ · T3 跨传感器+任务可迁移(共享trunk,处理不对齐) + FoTa 300万 [A] │
│ · AnyTouch 多传感器静/动统一 + TacQuad对齐集 + 通用token [A] │
│ · TVL 触-视-语对齐编码器 + 44K + 伪标注配方 [A] │
└───────────────────────────────────────────────────────────────────────┘
▲ 数据 / 仿真 支撑
┌───────────────────────────────────────────────────────────────────────┐
│ ① 支撑层:传感器(GelSight/DIGIT/阵列) · 仿真(TACTO/DIFFTACTILE/TacSL) │
│ · 数据集(FoTa/TacQuad/TVL/Touch100k) · 经典(Calandra/in-hand) │
└───────────────────────────────────────────────────────────────────────┘
贯穿全栈的两条主线:
(a) 门控演进: VLA-Touch(想做事件触发) → TacVLA(硬阈值) → TacForeSight(可学α) → ★我们:力前瞻+滞回连续门控
(b) 触觉注入形态: image(早期想法,已否) / state向量(TA-VLA) / token(主流) → ★我们:运行时自适应路由
📇 9 张卡片归位(证据/权重见各卡)¶
| 层 | 卡片 | 证据 | 一句话 |
|---|---|---|---|
| ④VLA融合 | 卡片-VLA-Touch | A-(开源) | 不重训·外挂双层(最可上手) |
| ④ | 卡片-Tactile-VLA | B | 力进动作空间→语言调力 |
| ④ | 卡片-TacVLA | B | 接触门控+token(消融证实) |
| ③世界模型 | 卡片-LaWAM | B+ | 视觉隐空间·解码器复用(怕相机运动) |
| ③ | 卡片-TacForeSight | B | 触觉隐空间·力预判触觉 |
| ②表征 | 卡片-T3 | A | 跨传感器可迁移+FoTa |
| ② | 卡片-AnyTouch | A | 多传感器静/动统一+TacQuad |
| ② | 卡片-TVL | A | 触-视-语对齐+伪标注 |
🎯 我们的切入点(缝隙在哪)¶
- ③层的缝:视觉 WM(LaWAM) 与触觉 WM(TacForeSight) 没人联合 → 💡双隐空间联合世界模型(机器人与VLA 06-28 idea)。还能顺带补 LaWAM"怕相机运动"的洞。
- 门控线的缝:现有最好也只是"当前态可学 α";力前瞻+滞回这类方向尚少人做。
- 降本角度:腕力便宜、力先于触觉 → 免触觉传感器推理(力预测触觉隐变量)是一条降本路线。
- 地基已就绪:②表征层全开源(A 级),可直接拿 T3/AnyTouch/TVL 当触觉编码器起步,不必从零。
🧱 体系框架(一句话版)¶
支撑层(传感器/仿真/数据/经典) → 表征层(把杂牌触觉统一,地基) → 世界模型层(预测未来,给前瞻) → VLA融合层(接进通用策略) → 接触操作;门控与注入形态贯穿全栈。 成熟度:②表征层最成熟(全开源A级) > ④VLA融合(部分开源,B) > ③世界模型(最新,B,机会最大)。机会与缝隙集中在③,地基取自②。
(由上述缝隙延伸出的原创想法属内部研究产出,此处不展开。)