跳转至

机器人知识库

概念 · 大脑的模型架构基础（看懂 VLA 卡片的前提）

概念 · 大脑的模型架构基础（看懂 VLA 卡片的前提）¶

"大脑"层(决策模型)的底座知识。读卡片-LaWAM / 卡片-VLA-Touch 等之前先过这页。

1. 骨架：Transformer / VLM¶

Transformer + 注意力：当前几乎所有大脑模型的底座；多模态(图/文/状态/触觉)统一成 token 序列，互相 attention。
VLM 骨干：VLA 通常拿一个预训练 视觉-语言模型当骨干(如 SigLIP/PaliGemma、Qwen-VL、Gemma)，再接"动作头"。好处：白嫖大模型的语义/常识(见卡片-Tactile-VLA 的"VLM 已含物理常识")。

2. 怎么把"决策"变成"动作"：动作表示三条路¶

自回归 token：把动作离散成 token 逐个生成(RT-2 类、FAST tokenizer)。
扩散 Diffusion Policy：从噪声去噪出整段动作，擅长多模态动作分布(RDT-1B 用)。
流匹配 flow matching：扩散的高效变体，π0 用；本库多张卡的动作头是它。
action chunk：一次吐未来 N 步动作再执行——这就是"大脑出动作块、小脑去跟踪"的接口(见控制回路与频率-动态视图)。

3. 让大脑"会预判"：世界模型¶

像素级 WAM：生成未来视频再决策——准但慢(秒级)。
隐空间级 WAM：只在压缩特征空间预测未来——快(百毫秒)。卡片-LaWAM 走这条；触觉版是 卡片-TacForeSight；视触觉联合是 卡片-VT-WM/卡片-OmniVTA。
一句话：世界模型 = 给策略加"物理前瞻"，隐空间是让它跑得起的关键。

4. 常见增容/提效手段¶

MoE 专家混合：按输入路由子网络，增参不增推理量(ForceVLA 等用于融合)。
冻结骨干 + 小适配器/LoRA：省训练、保通用(TacVLA 用 LoRA；LaWAM 冻结 DINO 视觉)。
表征预训练：先无监督学好编码器再接策略——触觉侧就是卡片-T3/卡片-AnyTouch/卡片-TVL。

4.5 纯视觉 VLA 三大底座（必懂，触觉×VLA 都建在它们上/与之对比）¶

卡片-RT-2：开山——VLM co-fine-tune 进控制、动作即 token(闭源)。
卡片-OpenVLA：开源 7B、Open-X 训练，最可上手的底座。
卡片-π0：flow matching 动作专家，本库卡片-Tactile-VLA/卡片-TacVLA 的底座。
经典前身：卡片-RT-1（规模化模仿，VLA 的起点）。
最新(2025–26)：卡片-π0.5（开放世界）、卡片-GR00T-N1（NVIDIA 开源人形底座）、卡片-Helix（Figure 双系统=大脑慢/小脑快的工业实证）。

5. 和我们触觉×VLA 的关系¶

触觉接进大脑 = 在上面骨架里多一路 token/隐变量(image/state/token 三种注入点)。
"门控"(接触才信触觉)、"力预判触觉"都是在这套架构上的小改 → 见全景图-触觉VLA体系的门控演进。

⚠️ 入门通俗版(🤖)；要严谨定义看 Modern Robotics / MIT Manipulation 课程与各原论文。