跳转至

触觉 × VLA · 一页全景图 & 体系框架

怎么用:这页是 9 张精读卡片 + 文献地图的"总览",给老板/团队一眼看清"这条线长什么样、我们卡在哪"。 配套:明细 触觉×机器人-文献地图与阅读方案

🗺️ 分层全景图(自下而上:地基→前沿)

                        机器人接触式操作(灵巧手 / 双臂 / 插拔 / 抓取)
                                    ▲ 动作
┌───────────────────────────────────────────────────────────────────────┐
│  ④ VLA 融合层(把触觉接进通用策略)                                      │
│   · VLA-Touch  外挂式·不重训(规划Octopi+控制BRIDGeR精修)  [A-代码开源]   │
│   · Tactile-VLA 力写进动作空间→语言零样本调力(π0)        [B]            │
│   · TacVLA     接触门控+低维token(Pi0.5+LoRA)            [B]            │
└───────────────────────────────────────────────────────────────────────┘
                                    ▲ 隐子目标 / 触觉token
┌───────────────────────────────────────────────────────────────────────┐
│  ③ 世界模型层(预测未来,给前瞻)                                        │
│   · LaWAM      视觉隐空间一步预测(decoder复用) [B+]  ┐                   │
│   · TacForeSight 触觉隐空间预测(力→触觉,可学门控)[B] ┘ ←★我们要"联合"这两个│
└───────────────────────────────────────────────────────────────────────┘
                                    ▲ 统一/可迁移触觉表征
┌───────────────────────────────────────────────────────────────────────┐
│  ② 表征层(地基·全开源·A 级)                                            │
│   · T3   跨传感器+任务可迁移(共享trunk,处理不对齐) + FoTa 300万  [A]     │
│   · AnyTouch 多传感器静/动统一 + TacQuad对齐集 + 通用token       [A]     │
│   · TVL  触-视-语对齐编码器 + 44K + 伪标注配方                   [A]     │
└───────────────────────────────────────────────────────────────────────┘
                                    ▲ 数据 / 仿真 支撑
┌───────────────────────────────────────────────────────────────────────┐
│  ① 支撑层:传感器(GelSight/DIGIT/阵列) · 仿真(TACTO/DIFFTACTILE/TacSL)  │
│           · 数据集(FoTa/TacQuad/TVL/Touch100k) · 经典(Calandra/in-hand) │
└───────────────────────────────────────────────────────────────────────┘

  贯穿全栈的两条主线:
   (a) 门控演进: VLA-Touch(想做事件触发) → TacVLA(硬阈值) → TacForeSight(可学α)  → ★我们:力前瞻+滞回连续门控
   (b) 触觉注入形态: image(早期想法,已否) / state向量(TA-VLA) / token(主流) → ★我们:运行时自适应路由

📇 9 张卡片归位(证据/权重见各卡)

卡片 证据 一句话
④VLA融合 卡片-VLA-Touch A-(开源) 不重训·外挂双层(最可上手)
卡片-Tactile-VLA B 力进动作空间→语言调力
卡片-TacVLA B 接触门控+token(消融证实)
③世界模型 卡片-LaWAM B+ 视觉隐空间·解码器复用(怕相机运动)
卡片-TacForeSight B 触觉隐空间·力预判触觉
②表征 卡片-T3 A 跨传感器可迁移+FoTa
卡片-AnyTouch A 多传感器静/动统一+TacQuad
卡片-TVL A 触-视-语对齐+伪标注

🎯 我们的切入点(缝隙在哪)

  1. ③层的缝:视觉 WM(LaWAM) 与触觉 WM(TacForeSight) 没人联合 → 💡双隐空间联合世界模型(机器人与VLA 06-28 idea)。还能顺带补 LaWAM"怕相机运动"的洞。
  2. 门控线的缝:现有最好也只是"当前态可学 α";力前瞻+滞回这类方向尚少人做。
  3. 降本角度:腕力便宜、力先于触觉 → 免触觉传感器推理(力预测触觉隐变量)是一条降本路线。
  4. 地基已就绪:②表征层全开源(A 级),可直接拿 T3/AnyTouch/TVL 当触觉编码器起步,不必从零。

🧱 体系框架(一句话版)

支撑层(传感器/仿真/数据/经典) → 表征层(把杂牌触觉统一,地基) → 世界模型层(预测未来,给前瞻) → VLA融合层(接进通用策略) → 接触操作;门控与注入形态贯穿全栈。 成熟度:②表征层最成熟(全开源A级) > ④VLA融合(部分开源,B) > ③世界模型(最新,B,机会最大)。机会与缝隙集中在③,地基取自②。

(由上述缝隙延伸出的原创想法属内部研究产出,此处不展开。)