触觉 × VLA · 一页全景图 & 体系框架¶

怎么用：这页是 9 张精读卡片 + 文献地图的"总览"，给老板/团队一眼看清"这条线长什么样、我们卡在哪"。配套：明细触觉×机器人-文献地图与阅读方案。

🗺️ 分层全景图（自下而上：地基→前沿）¶

                        机器人接触式操作（灵巧手 / 双臂 / 插拔 / 抓取）
                                    ▲ 动作
┌───────────────────────────────────────────────────────────────────────┐
│  ④ VLA 融合层（把触觉接进通用策略）                                      │
│   · VLA-Touch  外挂式·不重训(规划Octopi+控制BRIDGeR精修)  [A-代码开源]   │
│   · Tactile-VLA 力写进动作空间→语言零样本调力(π0)        [B]            │
│   · TacVLA     接触门控+低维token(Pi0.5+LoRA)            [B]            │
└───────────────────────────────────────────────────────────────────────┘
                                    ▲ 隐子目标 / 触觉token
┌───────────────────────────────────────────────────────────────────────┐
│  ③ 世界模型层（预测未来，给前瞻）                                        │
│   · LaWAM      视觉隐空间一步预测(decoder复用) [B+]  ┐                   │
│   · TacForeSight 触觉隐空间预测(力→触觉,可学门控)[B] ┘ ←★我们要"联合"这两个│
└───────────────────────────────────────────────────────────────────────┘
                                    ▲ 统一/可迁移触觉表征
┌───────────────────────────────────────────────────────────────────────┐
│  ② 表征层（地基·全开源·A 级）                                            │
│   · T3   跨传感器+任务可迁移(共享trunk,处理不对齐) + FoTa 300万  [A]     │
│   · AnyTouch 多传感器静/动统一 + TacQuad对齐集 + 通用token       [A]     │
│   · TVL  触-视-语对齐编码器 + 44K + 伪标注配方                   [A]     │
└───────────────────────────────────────────────────────────────────────┘
                                    ▲ 数据 / 仿真 支撑
┌───────────────────────────────────────────────────────────────────────┐
│  ① 支撑层：传感器(GelSight/DIGIT/阵列) · 仿真(TACTO/DIFFTACTILE/TacSL)  │
│           · 数据集(FoTa/TacQuad/TVL/Touch100k) · 经典(Calandra/in-hand) │
└───────────────────────────────────────────────────────────────────────┘

  贯穿全栈的两条主线：
   (a) 门控演进： VLA-Touch(想做事件触发) → TacVLA(硬阈值) → TacForeSight(可学α)  → ★我们：力前瞻+滞回连续门控
   (b) 触觉注入形态： image(早期想法,已否) / state向量(TA-VLA) / token(主流) → ★我们：运行时自适应路由

📇 9 张卡片归位（证据/权重见各卡）¶

层	卡片	证据	一句话
④VLA融合	卡片-VLA-Touch	A-(开源)	不重训·外挂双层(最可上手)
④	卡片-Tactile-VLA	B	力进动作空间→语言调力
④	卡片-TacVLA	B	接触门控+token(消融证实)
③世界模型	卡片-LaWAM	B+	视觉隐空间·解码器复用(怕相机运动)
③	卡片-TacForeSight	B	触觉隐空间·力预判触觉
②表征	卡片-T3	A	跨传感器可迁移+FoTa
②	卡片-AnyTouch	A	多传感器静/动统一+TacQuad
②	卡片-TVL	A	触-视-语对齐+伪标注

🎯 我们的切入点（缝隙在哪）¶

③层的缝：视觉 WM(LaWAM) 与触觉 WM(TacForeSight) 没人联合 → 💡双隐空间联合世界模型（机器人与VLA 06-28 idea）。还能顺带补 LaWAM"怕相机运动"的洞。
门控线的缝：现有最好也只是"当前态可学 α"；力前瞻+滞回这类方向尚少人做。
降本角度：腕力便宜、力先于触觉 → 免触觉传感器推理(力预测触觉隐变量)是一条降本路线。
地基已就绪：②表征层全开源(A 级)，可直接拿 T3/AnyTouch/TVL 当触觉编码器起步，不必从零。

🧱 体系框架（一句话版）¶

支撑层(传感器/仿真/数据/经典) → 表征层(把杂牌触觉统一,地基) → 世界模型层(预测未来,给前瞻) → VLA融合层(接进通用策略) → 接触操作；门控与注入形态贯穿全栈。成熟度：②表征层最成熟(全开源A级) > ④VLA融合(部分开源,B) > ③世界模型(最新,B,机会最大)。机会与缝隙集中在③，地基取自②。

（由上述缝隙延伸出的原创想法属内部研究产出，此处不展开。）