TVL:把触觉接到"视觉+语言",还能用大白话描述触感¶
📌 一句话省流:用 DIGIT + 摄像头同步采 44K 触觉-视觉对,只人工标 10%、其余 90% 用 GPT-4V 伪标注;据此训一个语言对齐的触觉编码器(开放词表分类),再微调 LLaMA2 得 TVL 模型——能从触觉+视觉生成自然语言触感描述。
🧰 对我们(可用性速判)¶
- 对我们的用处:触-视-语对齐触觉编码器(把触觉接语言的桥);"10%人工+90%VLM伪标"采数配方可直接抄(降本)。
- 真实性(前期):高(ICML24 + 开源 + 清晰数字)。证据 A。
- 训练/微调资源:用开源编码器即可;扩数据靠 DIGIT+摄像头+伪标(便宜)。
- 能借多少(开源):✅ 代码 + ✅ 44K 数据 + ✅ 编码器/模型。但仅单传感器 DIGIT。
- 可用性结论:直接可用(接语言侧);跨传感器能力弱于 T3/AnyTouch。
亮点到底在哪(读全文后定位)¶
- 亮点=数据配方 + 开放词表:用"少量人工(10%) + VLM 伪标注(90%)"低成本把触觉拉进触-视-语对齐空间;首个开放词表的触觉-视觉-语言数据集(此前触觉数据多是闭集材料/纹理分类)。[1]
- 方法:用 OpenCLIP 的视觉/语言编码器,成对对比学习训触觉编码器→ 三模态对齐;再微调 LLaMA2-7B 成 TVL 模型做触感文本生成。Berkeley + Meta(含 Lambeta/Calandra/Goldberg)。[1]
- 证据"伪标注有效":少量人工 + VLM 伪标的混合,比纯任一来源都好。[1]
关键数字(全文核实)¶
- TVL 数据集:44K 触视对(DIGIT 传感器),10% 人工 / 90% GPT-4V 伪标注。[1]
- 触觉编码器:触-视-语对齐 +29% 分类准确率(相对仅用任意两模态训的模型)。[1]
- TVL 模型(微调 LLaMA2)在新建的触视理解基准上:比 GPT-4V +12%、比开源 VLM +32%。[1]
🔎 证据与可信度¶
- 论文:arXiv 2402.13232(Berkeley/Meta,ICML 2024)✅ 全文已读。
- 代码/数据/模型:github Max-Fu/tvl ✅开源。
- 证据等级:A(论文+开源+顶会+清晰数字)→ 权重:高。
🧪 复现/采用成本(拿来用为主)¶
- 直接用:开源触觉编码器(语言对齐)可当"触觉→语义"模块;数据集可直接训。
- 若扩数据:DIGIT + 摄像头同步采,伪标注流程把人工成本压到 10%(可复用其配方,便宜)。
- 侧证判价值:① 全开源(高) ② 顶会 ③ 数字清晰 ④ 伪标注配方降本 ⑤ 仅单传感器 DIGIT(泛化/跨传感器不如 T3/AnyTouch)。
🧱 局限(观察,非全部明列)¶
- 单传感器(DIGIT):跨传感器迁移弱于 卡片-T3/卡片-AnyTouch。
- 90% 伪标注质量受 GPT-4V 限制(可能引入偏差)。
- 偏"感知/描述",未直接做操作策略。
💡 我的批注 / 判断¶
- 触觉接"语言"的最干净范本:和 卡片-Tactile-VLA("VLM 已有物理常识")是一条线——TVL 提供"触觉↔语言"对齐编码器,正好是把触觉喂进 VLA 的语言侧桥。
- 伪标注配方可直接抄:我们以后采机器人触觉数据时,"10% 人工 + 90% VLM 伪标"能大幅降本——这也呼应雷达"批注=数据标注"的思路。
- 三张表征卡选型:跨传感器→T3/AnyTouch;接语言→TVL;有对齐多传感器数据→AnyTouch。
来源编号¶
- [1] arXiv 2402.13232 · 项目 · 代码 · 本地
papers/TVL-TouchVisionLanguage数据集-2402.13232.pdf(全文精读 2026-06-28)