TacVLA:触觉像 attention 一样"接触才打开"¶
📌 一句话省流:把触觉做成接触事件触发的门控——检测到接触才让触觉 token 进注意力,没接触就清零;触觉用 36 个低维 token(由 15×8 阵列经 MLP 得到)而非图片。视觉被遮挡/精细接触时优势最大。
🎬 演示:项目页 sites.google.com/view/tacvla(含视频)
🧰 对我们(可用性速判)¶
- 对我们的用处:contact-gating + 低维 token 设计可借;其硬阈值缺陷=我们改进起点(可学门控)。
- 真实性(前期):中(全文+消融,但 under review + 无代码)。证据 B。
- 训练/微调资源:base Pi0.5+LoRA;Franka+15×8 触觉阵列;数据自采;无代码需重写(~6–10 周)。
- 能借多少(开源):代码/数据未放;现借思路(gating)。
- 可用性结论:仅思路借鉴(无代码、under review)。
亮点到底在哪(读全文后定位)¶
- 亮点=contact-aware gating,且消融证实它是关键(Table III):去掉 gating(无条件常注入触觉)→ 拆解 83.75%→71.25%、箱内抓取 70%→40%(腰斩);图示无 gating 会"接近时错位、反复重抓、卡在中间态"。[1]
- 低维 token(36 个) 而非 image 是次要效率点:避免序列暴涨;明确反对把触觉当稠密像素。[1]
- 接触检测=阈值启发式:超过预设压力的 taxel 数量超过固定计数即判接触(c=1)。[1]
关键数字(全文核实,Table II/III)¶
- 拆解 4 任务均值 83.75% vs 微调 Pi0.5 63.75%(+20pp);逐task 100/90/70/75%。[1]
- 箱内抓取(遮挡) 70%(14/20) vs Pi0.5 10%(2/20)(+60pp)。[1]
- 遮挡鲁棒 ~2.1×。其他基线:Diffusion Policy 48.75%、3D Diffusion Policy 31.25%。[1]
🔎 证据与可信度¶
- 论文:arXiv 2603.12665(2026-03,under review)✅ 全文已读;作者 10 人含 Yu She(Purdue)、Arash Ajoudani(IIT) 等(survey 只写 Ajoudani,实为众作者之一)。
- 代码/数据:正文"code will be released",尚未放出;项目页 只有视频。
- 第三方复现:暂无。
- 证据等级:B(全文 + 明确消融,但 under review + 无代码)→ 权重:中。
🧪 复现条件与成本(暂不亲做,只估)¶
- 硬件:7-DoF Franka Emika Panda + 2× RGB(前置+腕) + 15×8 触觉阵列(120 测点,压阻/电容类,非 GelSight)。约 ¥6–10 万。
- 模型:base=Pi0.5(OpenPI),LoRA 微调,触觉编码器冻结;视觉 SigLIP、语言/本体 PaliGemma。
- 数据:拆解/箱内抓取演示需自采(接触密集,采集慢)。
- 时间估计:无代码 → 按论文重写 gating/token 模块,约 6–10 周(这批偏高)。
- 侧证判价值:① 代码未放、under review(弱) ② 消融清晰、gating 因果明确(强) ③ 每任务 20 trials、任务短程(样本/范围有限) ④ 触觉为低分辨率阵列。
🧱 局限(正文自陈)¶
- gating 是二值阈值启发式,不能渐变/可学(作者列为待改)。
- 触觉空间分辨率低,难做精细接触几何推理。
- 仅评测短程、接触密集任务;长程/复杂任务未做。
💡 我的批注 / 判断¶
- gating 思想最该吸收:与 卡片-TacForeSight、卡片-VLA-Touch(其"事件触发"未来方向)一起,确立"触觉按接触触发"为跨工作共识——直接否掉我 06-23"触觉常开/当图片",正解=低维 token + 接触门控。
- 它的 gating 还是"硬阈值",TacForeSight 用的是可学 channel-wise α —— 可学门控 > 阈值门控,是个明显改进点(potential idea)。
- 证据克制:under review + 无代码 → 结论按 B 用,放码/定稿再升。
来源编号¶
- [1] arXiv 2603.12665 · 项目页 · 本地
papers/TacVLA-2603.12665.pdf(全文精读 2026-06-28)