跳转至

机器人知识库

TVL：触觉-视觉-语言对齐数据集 + 语言对齐触觉编码器（开放词表）

TVL：把触觉接到"视觉+语言"，还能用大白话描述触感¶

📌 一句话省流：用 DIGIT + 摄像头同步采 44K 触觉-视觉对，只人工标 10%、其余 90% 用 GPT-4V 伪标注；据此训一个语言对齐的触觉编码器(开放词表分类)，再微调 LLaMA2 得 TVL 模型——能从触觉+视觉生成自然语言触感描述。

🎬 演示：项目页 tactile-vlm.github.io · 代码 github.com/Max-Fu/tvl

🧰 对我们（可用性速判）¶

对我们的用处：触-视-语对齐触觉编码器（把触觉接语言的桥）；"10%人工+90%VLM伪标"采数配方可直接抄(降本)。
真实性(前期)：高（ICML24 + 开源 + 清晰数字）。证据 A。
训练/微调资源：用开源编码器即可；扩数据靠 DIGIT+摄像头+伪标(便宜)。
能借多少(开源)：✅ 代码 + ✅ 44K 数据 + ✅ 编码器/模型。但仅单传感器 DIGIT。
可用性结论：直接可用(接语言侧)；跨传感器能力弱于 T3/AnyTouch。

亮点到底在哪（读全文后定位）¶

亮点=数据配方 + 开放词表：用"少量人工(10%) + VLM 伪标注(90%)"低成本把触觉拉进触-视-语对齐空间；首个开放词表的触觉-视觉-语言数据集(此前触觉数据多是闭集材料/纹理分类)。[1]
方法：用 OpenCLIP 的视觉/语言编码器，成对对比学习训触觉编码器→ 三模态对齐；再微调 LLaMA2-7B 成 TVL 模型做触感文本生成。Berkeley + Meta(含 Lambeta/Calandra/Goldberg)。[1]
证据"伪标注有效"：少量人工 + VLM 伪标的混合，比纯任一来源都好。[1]

关键数字（全文核实）¶

TVL 数据集：44K 触视对(DIGIT 传感器)，10% 人工 / 90% GPT-4V 伪标注。[1]
触觉编码器：触-视-语对齐 +29% 分类准确率(相对仅用任意两模态训的模型)。[1]
TVL 模型(微调 LLaMA2)在新建的触视理解基准上：比 GPT-4V +12%、比开源 VLM +32%。[1]

🔎 证据与可信度¶

论文：arXiv 2402.13232（Berkeley/Meta，ICML 2024）✅ 全文已读。
代码/数据/模型：github Max-Fu/tvl ✅开源。
证据等级：A（论文+开源+顶会+清晰数字）→ 权重：高。

🧪 复现/采用成本（拿来用为主）¶

直接用：开源触觉编码器(语言对齐)可当"触觉→语义"模块；数据集可直接训。
若扩数据：DIGIT + 摄像头同步采，伪标注流程把人工成本压到 10%(可复用其配方，便宜)。
侧证判价值：① 全开源(高) ② 顶会 ③ 数字清晰 ④ 伪标注配方降本 ⑤ 仅单传感器 DIGIT(泛化/跨传感器不如 T3/AnyTouch)。

🧱 局限（观察，非全部明列）¶

单传感器(DIGIT)：跨传感器迁移弱于卡片-T3/卡片-AnyTouch。
90% 伪标注质量受 GPT-4V 限制(可能引入偏差)。
偏"感知/描述"，未直接做操作策略。

💡 我的批注 / 判断¶

触觉接"语言"的最干净范本：和卡片-Tactile-VLA("VLM 已有物理常识")是一条线——TVL 提供"触觉↔语言"对齐编码器，正好是把触觉喂进 VLA 的语言侧桥。
伪标注配方可直接抄：我们以后采机器人触觉数据时，"10% 人工 + 90% VLM 伪标"能大幅降本——这也呼应雷达"批注=数据标注"的思路。
三张表征卡选型：跨传感器→T3/AnyTouch；接语言→TVL；有对齐多传感器数据→AnyTouch。

来源编号¶

[1] arXiv 2402.13232 · 项目 · 代码 · 本地 papers/TVL-TouchVisionLanguage数据集-2402.13232.pdf（全文精读 2026-06-28）