RT-2(VLA 开山代表作)¶
📌 一句话:把在互联网图文上训的 VLM 直接 co-fine-tune 进机器人控制(动作当文本 token 输出),于是机器人"白嫖"了网络语义/常识,出现对新物体/新指令的涌现泛化与初步推理。 🎬 项目页 · 论文 ⚠️ 代表作占位卡:基于摘要/项目页,未精读全文。权重未开源。
🧰 对我们(速判)¶
- 必懂底座:VLA 这条路的起点;"动作即 token + co-fine-tune VLM"范式从它确立。
- 真实性:高(DeepMind、CoRL23、影响巨大)→ 证据 A;但闭源(不能直接拿来用)。
- 能借:思想(VLM 语义→机器人);落地用看开源的 卡片-OpenVLA / 卡片-π0。
与我们的关系¶
- 触觉×VLA 卡片里反复出现的"主流 VLA 仍是 V+L"就是指 RT-2 这类——我们做的是给它们补触觉(见 综述-触觉与VLA路线总览 §0)。
来源¶
- 📄 RT-2, arXiv 2307.15818(Google DeepMind, CoRL 2023)· 项目页