跳转至

机器人智能 · 总框架(这个库在整个体系里的位置)

判断来源:🤖Claude 专业分析(边界在演进,待人复核)。目的:给一个能照着搭的准确框架,并定位触觉 / VLA 在哪一层。

一、先回答一个关键问题:VLA 端到端了,还分大脑/小脑吗?

  • VLA 是端到端,但只到"动作块",不是到电机力矩:它输出 ~几Hz–几十Hz 的动作块/末端目标,下面仍需高频(100Hz–1kHz)实时控制器去跟踪、做力控/平衡/防摔。
  • VLA 合并的是"感知融合+高层规划"(经典好几个手写模块→一个学习模型),没合并"实时控制"
  • 为什么必须分两层 = 频率/物理:大模型跑不到 kHz;力控/平衡/合规接触必须 kHz 闭环。所以"大脑(慢·学习)/小脑(快·控制)"分界依然成立(业界 humanoid 普遍用此双系统)。

二、分层依据(怎么分才专业)

  1. 时间尺度/频率:Hz–几十Hz(大脑) vs 100Hz–1kHz(小脑)——最硬的分界。
  2. 学习 vs 工程:大脑多学习型(VLA/世界模型);小脑多控制理论/RL,要可验证、安全。
  3. 抽象层级:语义/任务(大脑) vs 力/关节/平衡(小脑)。

三、准确框架(可据此搭建)

flowchart TB
  subgraph BRAIN["大脑 · 高层策略 (~1-30Hz, 学习型)"]
    PER["感知/表征<br/>视觉·触觉·状态估计"] --> POL["VLA / 世界模型<br/>理解·规划·决策 → 动作块"]
  end
  subgraph CB["小脑 · 实时控制 (~100Hz-1kHz, 控制/RL)"]
    CTRL["力控/阻抗 · 全身控制(WBC) · 平衡 · 安全"]
  end
  POL -->|"动作块 / 末端目标"| CTRL
  CTRL -->|"关节力矩"| HW["本体 · 硬件<br/>臂/手/腿 · 电机 · 传感器"]
  HW -->|"视觉/触觉/力/IMU"| PER
  DATA["学习基础: 仿真 · 数据集 · 表征预训练"] -.->|支撑| POL
  classDef hi fill:#e6f4ea,stroke:#0a9d6e,color:#123;
  class BRAIN hi;
读法:感知/表征 → 大脑(VLA/世界模型)出动作块 →(接口)→ 小脑实时控制器出力矩 → 本体 → 传感器闭环;仿真/数据在底下支撑大脑训练。大脑↔小脑的"动作块接口"就是两层的分界。

🔁 动态视图(各环频率怎么转 + 端到端替掉了经典哪一段)见 控制回路与频率-动态视图。上图是"静态有哪些模块",那页是"动态怎么循环"。

四、触觉 / 触觉×VLA 在哪一层

东西 作用
触觉 感知模态 → 表征 机器人最弱的感知;大脑(决策)和小脑(力控)都会用
VLA 大脑·高层策略 把(视觉+语言+触觉…)→动作块
世界模型 大脑 在大脑里"预判未来"再决策
门控/力控 小脑 实时"该不该信触觉"、合规接触

"触觉×VLA" = 把触觉接进大脑策略(VLA):让大脑决策能用上触觉这个模态;其中"预判未来"在大脑(世界模型)、"实时门控/力控"落小脑。它不新增层,是补一条"最弱感知 → 大脑决策"的接口。

五、放大看:我们这条线(触觉×VLA)内部体系

flowchart BT
  A["支撑: 传感器/仿真/数据"] --> B["表征(地基): T3·AnyTouch·TVL"]
  B --> C["世界模型: LaWAM·TacForeSight·VT-WM·OmniVTA"]
  C --> D["VLA融合: VLA-Touch·Tactile-VLA·TacVLA"]
  D --> E["接触操作"]
- 详见 综述-触觉与VLA路线总览(5 条路线)、全景图-触觉VLA体系触觉×机器人-文献地图与阅读方案。 - 卡片在左侧按层分组,每张含"对我们能不能用"速判 + 项目页/PDF 链接。

六、其它层 / 分支(占位,后续按需补 1–2 篇代表作)

  • 大脑:纯视觉 VLA(RT-2/OpenVLA/π0/GR00T)、任务规划、记忆。
  • 小脑:力控/阻抗、全身控制(WBC)、双足平衡、移动导航。
  • 感知:视觉 SLAM/3D、听觉。
  • 本体/基础:灵巧手硬件、仿真 Sim2Real、数据集、表征预训练。

    边界在演进:趋势是大脑模型吸收更多(甚至部分高频化),但小脑(实时控制)因物理/安全长期独立。