跳转至

概念 · 大脑的模型架构基础(看懂 VLA 卡片的前提)

"大脑"层(决策模型)的底座知识。读 卡片-LaWAM / 卡片-VLA-Touch 等之前先过这页。

1. 骨架:Transformer / VLM

  • Transformer + 注意力:当前几乎所有大脑模型的底座;多模态(图/文/状态/触觉)统一成 token 序列,互相 attention。
  • VLM 骨干:VLA 通常拿一个预训练 视觉-语言模型当骨干(如 SigLIP/PaliGemma、Qwen-VL、Gemma),再接"动作头"。好处:白嫖大模型的语义/常识(见 卡片-Tactile-VLA 的"VLM 已含物理常识")。

2. 怎么把"决策"变成"动作":动作表示三条路

  • 自回归 token:把动作离散成 token 逐个生成(RT-2 类、FAST tokenizer)。
  • 扩散 Diffusion Policy:从噪声去噪出整段动作,擅长多模态动作分布(RDT-1B 用)。
  • 流匹配 flow matching:扩散的高效变体,π0 用;本库多张卡的动作头是它。
  • action chunk:一次吐未来 N 步动作再执行——这就是"大脑出动作块、小脑去跟踪"的接口(见 控制回路与频率-动态视图)。

3. 让大脑"会预判":世界模型

  • 像素级 WAM:生成未来视频再决策——准但慢(秒级)。
  • 隐空间级 WAM:只在压缩特征空间预测未来——快(百毫秒)。卡片-LaWAM 走这条;触觉版是 卡片-TacForeSight;视触觉联合是 卡片-VT-WM/卡片-OmniVTA
  • 一句话:世界模型 = 给策略加"物理前瞻",隐空间是让它跑得起的关键。

4. 常见增容/提效手段

  • MoE 专家混合:按输入路由子网络,增参不增推理量(ForceVLA 等用于融合)。
  • 冻结骨干 + 小适配器/LoRA:省训练、保通用(TacVLA 用 LoRA;LaWAM 冻结 DINO 视觉)。
  • 表征预训练:先无监督学好编码器再接策略——触觉侧就是 卡片-T3/卡片-AnyTouch/卡片-TVL

4.5 纯视觉 VLA 三大底座(必懂,触觉×VLA 都建在它们上/与之对比)

5. 和我们触觉×VLA 的关系

  • 触觉接进大脑 = 在上面骨架里多一路 token/隐变量(image/state/token 三种注入点)。
  • "门控"(接触才信触觉)、"力预判触觉"都是在这套架构上的小改 → 见 全景图-触觉VLA体系 的门控演进。

⚠️ 入门通俗版(🤖);要严谨定义看 Modern Robotics / MIT Manipulation 课程与各原论文。