术语表(一句话看懂)¶
读卡片/综述时随时回查。通俗为主,严谨定义以原文为准。
体系 / 控制¶
- VLA(Vision-Language-Action):把"视觉+语言(+状态/触觉)"→动作的模型,多为端到端学习。属大脑层。
- 大脑 / 小脑:大脑=慢(~Hz)的高层决策(VLA/规划);小脑=快(~kHz)的实时控制(力控/平衡)。按频率分。
- 动作块 action chunk:模型一次输出未来 N 步动作,再交给小脑跟踪执行。
- 级联控制环:位置环→速度环→电流环,越内越快,伺服底层。
- 阻抗/导纳控制:让机器人对外力"柔顺",维持力与位移的二阶关系。
- WBC 全身控制:协调全身关节满足平衡/接触/任务约束的实时控制。
- Sim2Real:仿真训练→真机部署的迁移。
大脑·模型¶
- 世界模型 World Model:预测"未来会怎样"再决策;像素级(生成未来图,慢) vs 隐空间级(预测未来特征,快)。
- 隐空间 latent space:把高维输入压成的特征空间;在里面"想象未来"比生成像素省算力。
- 扩散策略 Diffusion Policy / flow matching:用扩散/流匹配生成动作分布,能表达多模态动作(π0 用 flow matching,RDT 用扩散)。
- MoE 专家混合:按输入路由到不同子网络,增容不增推理量。
- VLM 骨干:VLA 常用的视觉-语言底座(如 SigLIP+PaliGemma、Qwen-VL)。
感知·触觉¶
- 视触觉传感器:相机拍弹性体形变成像→高分辨触觉图。代表 GelSight / DIGIT。
- taxel 阵列:压阻/电容点阵,低分辨但便宜(如 TacVLA 的 15×8)。
- 法向力/剪切力/滑动:触觉测的接触量;剪切/滑动是纯视觉看不到的。
- 触觉表征/基础模型:把多种触觉传感器统一成可迁移 embedding(T3/AnyTouch/TVL)。
- 门控 gating:决定"何时/多大程度"信触觉(接触时才开);硬阈值→可学 α 是演进方向。
评测·数据¶
- LIBERO / CALVIN / RLBench / Meta-World / RoboTwin / SimplerEnv:机器人操作/VLA 常用评测基准(见 榜单-机器人操作与VLA评测)。
- Open X-Embodiment:跨本体大规模机器人数据集 + RT-X 模型。
- 成功率 SR:完成任务的比例,最常用指标(注意任务集/试验数/是否挑任务)。
- FoTa / TacQuad / TVL:触觉(表征)数据集(分别随 T3/AnyTouch/TVL)。