跳转至

Tactile-VLA:让"轻点/用力"这种话,真的变成 0.5N / 2.5N

📌 一句话省流:核心主张——VLM 早就懂"物体怎么交互"的常识,只是没接到力上。做法:把目标力直接写进动作空间(动作=目标位置+目标力),token 级融合视/语/触/本体,在 π0 上用 flow-matching 微调;少量演示就把"软/硬"这类语言零样本对应到具体牛顿力。

🎬 演示:项目页 jialeihuang.github.io/tactileVLA

🧰 对我们(可用性速判)

  • 对我们的用处"把目标力写进动作空间→语言零样本调力"设计可借;灵巧手力控直接相关。
  • 真实性(前期):高(全文+详细分任务数字)。证据 B。
  • 训练/微调资源:base π0(Gemma 2.6B)+300M 触觉专家;UMI 手持采数(便宜)+双触觉+GoPro;单机多卡微调。
  • 能借多少(开源):代码/数据 Coming Soon(未放);现借思路。传感器型号未公开。
  • 可用性结论:思路可借(force-in-action);代码未放、直接用待定。

亮点到底在哪(读全文后定位)

  • 亮点在"洞见+机制",证据在"力-语言零样本泛化":洞见=VLM 潜空间已有物理常识、缺 grounding;机制=force 进 action space + token 级融合,让语言副词直接调制力。[1]
  • 最硬证据(Table 2):训练只教过 USB 的'softly'(0.51N)/'hard'(2.57N),模型①对没教过的副词内插('gently'0.75N/'firmly'1.98N)②外推('harder'2.94N > 'hard')③零样本迁移到 charger 任务('softly'4.68N/'hard'9.13N)。π0 基线对副词毫无力区分(全 2.3–2.7N)。[1]
  • 注:无独立消融表,其"消融"靠与 π0-base/π0-fast 对比(去掉触觉融合即退化)。

关键数字(全文核实)

  • 插拔(Table 1):USB 35% vs π0-base 5% / π0-fast 0%;Charger 90% vs 40% / 25%。[1]
  • 常识抓取(Table 3,10 trials/物):脆弱类 OOD(如火龙果/蓝莓)Tactile-VLA 80–100%,π0 0%。[1]
  • 推理(Table 4):擦板 whiteboard/blackboard(OOD)——Tactile-VLA-CoT 75%/80%,无 CoT 80%/15%,π0 40%/0%;CoT 自主把力从 3.5N 提到 6.7N 擦掉粉笔。[1]

🔎 证据与可信度

  • 论文arXiv 2507.09160清华 Yang Gao 组 + UESTC + SJTU)✅ 全文已读 — ⚠️ 网传 survey 误写"英国 Surrey",已更正。
  • 代码/数据:项目页"Coming Soon",正文无开源声明 → 未放出
  • 第三方复现:暂无。
  • 证据等级:B(全文 + 强结果,但无开源、无独立消融表、无局限节)→ 权重:中

🧪 复现条件与成本(暂不亲做,只估)

  • 硬件:base = π0(Gemma 2.6B) + 300M 触觉动作专家;数据采集用 UMI 手持夹爪 + 双高分辨率触觉(测法向+剪切) + GoPro(UMI 众采便宜,采数门槛低,加分)。触觉传感器型号正文未指明
  • 数据:每任务约 100 演示(USB 软/硬各 100、charger 100、擦板成功/失败各 100);100Hz 触觉 / 20Hz 视觉同步。
  • 算力:在 π0 上 CFM 微调,单机多卡可行。
  • 时间估计:硬件到位 + 代码放出 → 约 4–6 周;代码不放需重写 +。
  • 侧证判价值:① 代码未放(弱) ② UMI 采数便宜、可得性好 ③ 分任务数字详实、力-语言曲线可信(强) ④ 无第三方复现 ⑤ 无 limitations 节(作者没自陈局限,需自己警惕:传感器未公开、任务窄)。

🧱 局限(⚠️ 正文未设 Limitations 节——以下是我据全文的推断,属"待验证")

  • 触觉传感器型号/规格未公开 → 复现与可比性打折。
  • 任务集中插拔/抓取/擦拭,长程任务未测。
  • 强依赖 UMI 力对齐采集,换平台未知。

💡 我的批注 / 判断

  • "VLM 已有常识、缺 grounding"= 把能力当"接通道"而非"加知识"——和我"用旧笔记激活新判断"同一味道,值得作为方法论记住。
  • "force 进 action space"是可直接借的设计:比"把触觉当输入"更进一步,让语言→力可学可泛化。灵巧手力控可用。
  • 卡片-TacVLA/卡片-TacForeSight 一致:都不把触觉当 image——我 06-23 的"特殊图片"表示被三篇共同否掉。

来源编号