基准 · SimplerEnv（SIMPLER）¶

📌 一句话：真机评测太贵、难复现 → 用仿真给"真机 VLA 策略"做可复现、可横比的评测，且和真机结果强相关。是"仿真分≠真机"这个坑的解药。 🎬 项目页 · 论文 · 代码

测什么 / 怎么做（已核）¶

评在真机上训练的策略(如 RT-1/RT-1-X/Octo，及后续 π0/OpenVLA 等)在仿真里的表现，作为真机评测的高效替身。两种策略缩小真↔仿差距： - Visual Matching：把真实图像叠到仿真背景，对齐视觉外观。 - Variant Aggregation：造多种背景/光照/干扰/桌面纹理变体，取平均。

规模 / 可信度¶

2 个本体(Google Robot、WidowX+Bridge)，8 个任务族；>1500 对真-仿配对评测，证明仿真与真机性能强相关。

指标¶

各任务族成功率 + 跨变体平均；重点看"是否复现真机排名"。

🧰 对我们¶

想低成本、可复现地横比 VLA(而不是各自真机自说自话)时用它——比纯仿真基准(LIBERO)更接近真机。
和基准-LIBERO 配合：LIBERO 看"能力上限/迭代"，SimplerEnv 看"真机迁移可信度"。

⚠️ 陷阱¶

仍是仿真近似，覆盖任务有限(8 族)；需要对应的真实 setup 才能做 Visual Matching。
只覆盖特定本体/任务，未必代表你的平台。

来源¶

📄 Evaluating Real-World Robot Manipulation Policies in Simulation, arXiv 2405.05941（CoRL 2024）· 项目页 · GitHub