跳转至

术语表(一句话看懂)

读卡片/综述时随时回查。通俗为主,严谨定义以原文为准。

体系 / 控制

  • VLA(Vision-Language-Action):把"视觉+语言(+状态/触觉)"→动作的模型,多为端到端学习。属大脑层。
  • 大脑 / 小脑:大脑=慢(~Hz)的高层决策(VLA/规划);小脑=快(~kHz)的实时控制(力控/平衡)。按频率分。
  • 动作块 action chunk:模型一次输出未来 N 步动作,再交给小脑跟踪执行。
  • 级联控制环:位置环→速度环→电流环,越内越快,伺服底层。
  • 阻抗/导纳控制:让机器人对外力"柔顺",维持力与位移的二阶关系。
  • WBC 全身控制:协调全身关节满足平衡/接触/任务约束的实时控制。
  • Sim2Real:仿真训练→真机部署的迁移。

大脑·模型

  • 世界模型 World Model:预测"未来会怎样"再决策;像素级(生成未来图,慢) vs 隐空间级(预测未来特征,快)。
  • 隐空间 latent space:把高维输入压成的特征空间;在里面"想象未来"比生成像素省算力。
  • 扩散策略 Diffusion Policy / flow matching:用扩散/流匹配生成动作分布,能表达多模态动作(π0 用 flow matching,RDT 用扩散)。
  • MoE 专家混合:按输入路由到不同子网络,增容不增推理量。
  • VLM 骨干:VLA 常用的视觉-语言底座(如 SigLIP+PaliGemma、Qwen-VL)。

感知·触觉

  • 视触觉传感器:相机拍弹性体形变成像→高分辨触觉图。代表 GelSight / DIGIT
  • taxel 阵列:压阻/电容点阵,低分辨但便宜(如 TacVLA 的 15×8)。
  • 法向力/剪切力/滑动:触觉测的接触量;剪切/滑动是纯视觉看不到的。
  • 触觉表征/基础模型:把多种触觉传感器统一成可迁移 embedding(T3/AnyTouch/TVL)。
  • 门控 gating:决定"何时/多大程度"信触觉(接触时才开);硬阈值→可学 α 是演进方向。

评测·数据

  • LIBERO / CALVIN / RLBench / Meta-World / RoboTwin / SimplerEnv:机器人操作/VLA 常用评测基准(见 榜单-机器人操作与VLA评测)。
  • Open X-Embodiment:跨本体大规模机器人数据集 + RT-X 模型。
  • 成功率 SR:完成任务的比例,最常用指标(注意任务集/试验数/是否挑任务)。
  • FoTa / TacQuad / TVL:触觉(表征)数据集(分别随 T3/AnyTouch/TVL)。