概念 · 大脑的模型架构基础(看懂 VLA 卡片的前提)¶
"大脑"层(决策模型)的底座知识。读 卡片-LaWAM / 卡片-VLA-Touch 等之前先过这页。
1. 骨架:Transformer / VLM¶
- Transformer + 注意力:当前几乎所有大脑模型的底座;多模态(图/文/状态/触觉)统一成 token 序列,互相 attention。
- VLM 骨干:VLA 通常拿一个预训练 视觉-语言模型当骨干(如 SigLIP/PaliGemma、Qwen-VL、Gemma),再接"动作头"。好处:白嫖大模型的语义/常识(见 卡片-Tactile-VLA 的"VLM 已含物理常识")。
2. 怎么把"决策"变成"动作":动作表示三条路¶
- 自回归 token:把动作离散成 token 逐个生成(RT-2 类、FAST tokenizer)。
- 扩散 Diffusion Policy:从噪声去噪出整段动作,擅长多模态动作分布(RDT-1B 用)。
- 流匹配 flow matching:扩散的高效变体,π0 用;本库多张卡的动作头是它。
- action chunk:一次吐未来 N 步动作再执行——这就是"大脑出动作块、小脑去跟踪"的接口(见 控制回路与频率-动态视图)。
3. 让大脑"会预判":世界模型¶
- 像素级 WAM:生成未来视频再决策——准但慢(秒级)。
- 隐空间级 WAM:只在压缩特征空间预测未来——快(百毫秒)。卡片-LaWAM 走这条;触觉版是 卡片-TacForeSight;视触觉联合是 卡片-VT-WM/卡片-OmniVTA。
- 一句话:世界模型 = 给策略加"物理前瞻",隐空间是让它跑得起的关键。
4. 常见增容/提效手段¶
- MoE 专家混合:按输入路由子网络,增参不增推理量(ForceVLA 等用于融合)。
- 冻结骨干 + 小适配器/LoRA:省训练、保通用(TacVLA 用 LoRA;LaWAM 冻结 DINO 视觉)。
- 表征预训练:先无监督学好编码器再接策略——触觉侧就是 卡片-T3/卡片-AnyTouch/卡片-TVL。
4.5 纯视觉 VLA 三大底座(必懂,触觉×VLA 都建在它们上/与之对比)¶
- 卡片-RT-2:开山——VLM co-fine-tune 进控制、动作即 token(闭源)。
- 卡片-OpenVLA:开源 7B、Open-X 训练,最可上手的底座。
- 卡片-π0:flow matching 动作专家,本库 卡片-Tactile-VLA/卡片-TacVLA 的底座。
- 经典前身:卡片-RT-1(规模化模仿,VLA 的起点)。
- 最新(2025–26):卡片-π0.5(开放世界)、卡片-GR00T-N1(NVIDIA 开源人形底座)、卡片-Helix(Figure 双系统=大脑慢/小脑快的工业实证)。
5. 和我们触觉×VLA 的关系¶
- 触觉接进大脑 = 在上面骨架里多一路 token/隐变量(image/state/token 三种注入点)。
- "门控"(接触才信触觉)、"力预判触觉"都是在这套架构上的小改 → 见 全景图-触觉VLA体系 的门控演进。
⚠️ 入门通俗版(🤖);要严谨定义看 Modern Robotics / MIT Manipulation 课程与各原论文。