跳转至

基准 · SimplerEnv(SIMPLER)

📌 一句话:真机评测太贵、难复现 → 用仿真给"真机 VLA 策略"做可复现、可横比的评测,且和真机结果强相关。是"仿真分≠真机"这个坑的解药。 🎬 项目页 · 论文 · 代码

测什么 / 怎么做(已核)

评在真机上训练的策略(如 RT-1/RT-1-X/Octo,及后续 π0/OpenVLA 等)在仿真里的表现,作为真机评测的高效替身。两种策略缩小真↔仿差距: - Visual Matching:把真实图像叠到仿真背景,对齐视觉外观。 - Variant Aggregation:造多种背景/光照/干扰/桌面纹理变体,取平均。

规模 / 可信度

  • 2 个本体(Google RobotWidowX+Bridge),8 个任务族>1500 对真-仿配对评测,证明仿真与真机性能强相关

指标

各任务族成功率 + 跨变体平均;重点看"是否复现真机排名"。

🧰 对我们

  • 低成本、可复现地横比 VLA(而不是各自真机自说自话)时用它——比纯仿真基准(LIBERO)更接近真机。
  • 基准-LIBERO 配合:LIBERO 看"能力上限/迭代",SimplerEnv 看"真机迁移可信度"。

⚠️ 陷阱

  • 仍是仿真近似,覆盖任务有限(8 族);需要对应的真实 setup 才能做 Visual Matching。
  • 只覆盖特定本体/任务,未必代表你的平台。

来源