Tactile-VLA:让"轻点/用力"这种话,真的变成 0.5N / 2.5N¶
📌 一句话省流:核心主张——VLM 早就懂"物体怎么交互"的常识,只是没接到力上。做法:把目标力直接写进动作空间(动作=目标位置+目标力),token 级融合视/语/触/本体,在 π0 上用 flow-matching 微调;少量演示就把"软/硬"这类语言零样本对应到具体牛顿力。
🧰 对我们(可用性速判)¶
- 对我们的用处:"把目标力写进动作空间→语言零样本调力"设计可借;灵巧手力控直接相关。
- 真实性(前期):高(全文+详细分任务数字)。证据 B。
- 训练/微调资源:base π0(Gemma 2.6B)+300M 触觉专家;UMI 手持采数(便宜)+双触觉+GoPro;单机多卡微调。
- 能借多少(开源):代码/数据 Coming Soon(未放);现借思路。传感器型号未公开。
- 可用性结论:思路可借(force-in-action);代码未放、直接用待定。
亮点到底在哪(读全文后定位)¶
- 亮点在"洞见+机制",证据在"力-语言零样本泛化":洞见=VLM 潜空间已有物理常识、缺 grounding;机制=force 进 action space + token 级融合,让语言副词直接调制力。[1]
- 最硬证据(Table 2):训练只教过 USB 的'softly'(0.51N)/'hard'(2.57N),模型①对没教过的副词内插('gently'0.75N/'firmly'1.98N)②外推('harder'2.94N > 'hard')③零样本迁移到 charger 任务('softly'4.68N/'hard'9.13N)。π0 基线对副词毫无力区分(全 2.3–2.7N)。[1]
- 注:无独立消融表,其"消融"靠与 π0-base/π0-fast 对比(去掉触觉融合即退化)。
关键数字(全文核实)¶
- 插拔(Table 1):USB 35% vs π0-base 5% / π0-fast 0%;Charger 90% vs 40% / 25%。[1]
- 常识抓取(Table 3,10 trials/物):脆弱类 OOD(如火龙果/蓝莓)Tactile-VLA 80–100%,π0 0%。[1]
- 推理(Table 4):擦板 whiteboard/blackboard(OOD)——Tactile-VLA-CoT 75%/80%,无 CoT 80%/15%,π0 40%/0%;CoT 自主把力从 3.5N 提到 6.7N 擦掉粉笔。[1]
🔎 证据与可信度¶
- 论文:arXiv 2507.09160(清华 Yang Gao 组 + UESTC + SJTU)✅ 全文已读 — ⚠️ 网传 survey 误写"英国 Surrey",已更正。
- 代码/数据:项目页"Coming Soon",正文无开源声明 → 未放出。
- 第三方复现:暂无。
- 证据等级:B(全文 + 强结果,但无开源、无独立消融表、无局限节)→ 权重:中。
🧪 复现条件与成本(暂不亲做,只估)¶
- 硬件:base = π0(Gemma 2.6B) + 300M 触觉动作专家;数据采集用 UMI 手持夹爪 + 双高分辨率触觉(测法向+剪切) + GoPro(UMI 众采便宜,采数门槛低,加分)。触觉传感器型号正文未指明。
- 数据:每任务约 100 演示(USB 软/硬各 100、charger 100、擦板成功/失败各 100);100Hz 触觉 / 20Hz 视觉同步。
- 算力:在 π0 上 CFM 微调,单机多卡可行。
- 时间估计:硬件到位 + 代码放出 → 约 4–6 周;代码不放需重写 +。
- 侧证判价值:① 代码未放(弱) ② UMI 采数便宜、可得性好 ③ 分任务数字详实、力-语言曲线可信(强) ④ 无第三方复现 ⑤ 无 limitations 节(作者没自陈局限,需自己警惕:传感器未公开、任务窄)。
🧱 局限(⚠️ 正文未设 Limitations 节——以下是我据全文的推断,属"待验证")¶
- 触觉传感器型号/规格未公开 → 复现与可比性打折。
- 任务集中插拔/抓取/擦拭,长程任务未测。
- 强依赖 UMI 力对齐采集,换平台未知。
💡 我的批注 / 判断¶
- "VLM 已有常识、缺 grounding"= 把能力当"接通道"而非"加知识"——和我"用旧笔记激活新判断"同一味道,值得作为方法论记住。
- "force 进 action space"是可直接借的设计:比"把触觉当输入"更进一步,让语言→力可学可泛化。灵巧手力控可用。
- 与 卡片-TacVLA/卡片-TacForeSight 一致:都不把触觉当 image——我 06-23 的"特殊图片"表示被三篇共同否掉。
来源编号¶
- [1] arXiv 2507.09160 · 项目页 · 本地
papers/Tactile-VLA-2507.09160.pdf(全文精读 2026-06-28)