跳转至

机器人知识库

TacVLA：触觉"接触才开"的门控 + 低维 token（不当图片）

TacVLA：触觉像 attention 一样"接触才打开"¶

📌 一句话省流：把触觉做成接触事件触发的门控——检测到接触才让触觉 token 进注意力，没接触就清零；触觉用 36 个低维 token(由 15×8 阵列经 MLP 得到)而非图片。视觉被遮挡/精细接触时优势最大。

🎬 演示：项目页 sites.google.com/view/tacvla（含视频）

🧰 对我们（可用性速判）¶

对我们的用处：contact-gating + 低维 token 设计可借；其硬阈值缺陷=我们改进起点(可学门控)。
真实性(前期)：中（全文+消融，但 under review + 无代码）。证据 B。
训练/微调资源：base Pi0.5+LoRA；Franka+15×8 触觉阵列；数据自采；无代码需重写(~6–10 周)。
能借多少(开源)：代码/数据未放；现借思路(gating)。
可用性结论：仅思路借鉴(无代码、under review)。

亮点到底在哪（读全文后定位）¶

亮点=contact-aware gating，且消融证实它是关键(Table III)：去掉 gating（无条件常注入触觉）→ 拆解 83.75%→71.25%、箱内抓取 70%→40%(腰斩)；图示无 gating 会"接近时错位、反复重抓、卡在中间态"。[1]
低维 token(36 个) 而非 image 是次要效率点：避免序列暴涨；明确反对把触觉当稠密像素。[1]
接触检测=阈值启发式：超过预设压力的 taxel 数量超过固定计数即判接触(c=1)。[1]

关键数字（全文核实，Table II/III）¶

拆解 4 任务均值 83.75% vs 微调 Pi0.5 63.75%（+20pp）；逐task 100/90/70/75%。[1]
箱内抓取(遮挡) 70%(14/20) vs Pi0.5 10%(2/20)（+60pp）。[1]
遮挡鲁棒 ~2.1×。其他基线：Diffusion Policy 48.75%、3D Diffusion Policy 31.25%。[1]

🔎 证据与可信度¶

论文：arXiv 2603.12665（2026-03，under review）✅ 全文已读；作者 10 人含 Yu She(Purdue)、Arash Ajoudani(IIT) 等（survey 只写 Ajoudani，实为众作者之一）。
代码/数据：正文"code will be released"，尚未放出；项目页只有视频。
第三方复现：暂无。
证据等级：B（全文 + 明确消融，但 under review + 无代码）→ 权重：中。

🧪 复现条件与成本（暂不亲做，只估）¶

硬件：7-DoF Franka Emika Panda + 2× RGB(前置+腕) + 15×8 触觉阵列(120 测点，压阻/电容类，非 GelSight)。约 ¥6–10 万。
模型：base=Pi0.5(OpenPI)，LoRA 微调，触觉编码器冻结；视觉 SigLIP、语言/本体 PaliGemma。
数据：拆解/箱内抓取演示需自采（接触密集，采集慢）。
时间估计：无代码 → 按论文重写 gating/token 模块，约 6–10 周（这批偏高）。
侧证判价值：① 代码未放、under review(弱) ② 消融清晰、gating 因果明确(强) ③ 每任务 20 trials、任务短程(样本/范围有限) ④ 触觉为低分辨率阵列。

🧱 局限（正文自陈）¶

gating 是二值阈值启发式，不能渐变/可学（作者列为待改）。
触觉空间分辨率低，难做精细接触几何推理。
仅评测短程、接触密集任务；长程/复杂任务未做。

💡 我的批注 / 判断¶

gating 思想最该吸收：与卡片-TacForeSight、卡片-VLA-Touch（其"事件触发"未来方向）一起，确立"触觉按接触触发"为跨工作共识——直接否掉我 06-23"触觉常开/当图片"，正解=低维 token + 接触门控。
它的 gating 还是"硬阈值"，TacForeSight 用的是可学 channel-wise α —— 可学门控 > 阈值门控，是个明显改进点（potential idea）。
证据克制：under review + 无代码 → 结论按 B 用，放码/定稿再升。

来源编号¶

[1] arXiv 2603.12665 · 项目页 · 本地 papers/TacVLA-2603.12665.pdf（全文精读 2026-06-28）