跳转至

TacVLA:触觉像 attention 一样"接触才打开"

📌 一句话省流:把触觉做成接触事件触发的门控——检测到接触才让触觉 token 进注意力,没接触就清零;触觉用 36 个低维 token(由 15×8 阵列经 MLP 得到)而非图片。视觉被遮挡/精细接触时优势最大。

🎬 演示:项目页 sites.google.com/view/tacvla(含视频)

🧰 对我们(可用性速判)

  • 对我们的用处:contact-gating + 低维 token 设计可借;其硬阈值缺陷=我们改进起点(可学门控)。
  • 真实性(前期):中(全文+消融,但 under review + 无代码)。证据 B。
  • 训练/微调资源:base Pi0.5+LoRA;Franka+15×8 触觉阵列;数据自采;无代码需重写(~6–10 周)
  • 能借多少(开源):代码/数据未放;现借思路(gating)。
  • 可用性结论:仅思路借鉴(无代码、under review)。

亮点到底在哪(读全文后定位)

  • 亮点=contact-aware gating,且消融证实它是关键(Table III):去掉 gating(无条件常注入触觉)→ 拆解 83.75%→71.25%、箱内抓取 70%→40%(腰斩);图示无 gating 会"接近时错位、反复重抓、卡在中间态"。[1]
  • 低维 token(36 个) 而非 image 是次要效率点:避免序列暴涨;明确反对把触觉当稠密像素。[1]
  • 接触检测=阈值启发式:超过预设压力的 taxel 数量超过固定计数即判接触(c=1)。[1]

关键数字(全文核实,Table II/III)

  • 拆解 4 任务均值 83.75% vs 微调 Pi0.5 63.75%(+20pp);逐task 100/90/70/75%。[1]
  • 箱内抓取(遮挡) 70%(14/20) vs Pi0.5 10%(2/20)(+60pp)。[1]
  • 遮挡鲁棒 ~2.1×。其他基线:Diffusion Policy 48.75%、3D Diffusion Policy 31.25%。[1]

🔎 证据与可信度

  • 论文arXiv 2603.12665(2026-03,under review)✅ 全文已读;作者 10 人含 Yu She(Purdue)、Arash Ajoudani(IIT) 等(survey 只写 Ajoudani,实为众作者之一)。
  • 代码/数据:正文"code will be released",尚未放出项目页 只有视频。
  • 第三方复现:暂无。
  • 证据等级:B(全文 + 明确消融,但 under review + 无代码)→ 权重:中

🧪 复现条件与成本(暂不亲做,只估)

  • 硬件7-DoF Franka Emika Panda + 2× RGB(前置+腕) + 15×8 触觉阵列(120 测点,压阻/电容类,非 GelSight)。约 ¥6–10 万
  • 模型:base=Pi0.5(OpenPI),LoRA 微调,触觉编码器冻结;视觉 SigLIP、语言/本体 PaliGemma。
  • 数据:拆解/箱内抓取演示需自采(接触密集,采集慢)。
  • 时间估计无代码 → 按论文重写 gating/token 模块,约 6–10 周(这批偏高)。
  • 侧证判价值:① 代码未放、under review(弱) ② 消融清晰、gating 因果明确(强) ③ 每任务 20 trials、任务短程(样本/范围有限) ④ 触觉为低分辨率阵列。

🧱 局限(正文自陈)

  • gating 是二值阈值启发式,不能渐变/可学(作者列为待改)。
  • 触觉空间分辨率低,难做精细接触几何推理。
  • 仅评测短程、接触密集任务;长程/复杂任务未做。

💡 我的批注 / 判断

  • gating 思想最该吸收:与 卡片-TacForeSight卡片-VLA-Touch(其"事件触发"未来方向)一起,确立"触觉按接触触发"为跨工作共识——直接否掉我 06-23"触觉常开/当图片",正解=低维 token + 接触门控。
  • 它的 gating 还是"硬阈值",TacForeSight 用的是可学 channel-wise α —— 可学门控 > 阈值门控,是个明显改进点(potential idea)。
  • 证据克制:under review + 无代码 → 结论按 B 用,放码/定稿再升。

来源编号