Resumen: los documentos de aprendizaje de robot generalmente informan una tasa de éxito binaria (SR), que oscurece cuando una política tiene éxito o falla a lo largo de una tarea de manipulación de varios pasos. Argumentamos que los informes de nivel subggoal deberían convertirse en rutina: para cada trayectoria, un vector de SRS por subgoal que hace que la competencia parcial sea visible (por ejemplo, agarre vs. Pour). Proponemos un plan para StepEval, un marco de evaluación de complementos consciente de costos que utiliza modelos de lenguaje de visión (VLMS) como jueces automatizados de resultados de subggoal a partir de imágenes o videos grabados. En lugar de proponer nuevos puntos de referencia o API, nuestra contribución es describir los principios de diseño para un proyecto de código abierto escalable y impulsado por la comunidad. En Stepeval, el artefacto principal para la evaluación de políticas es el vector SR por subgoal; Sin embargo, otras cantidades (p. Ej., Estimaciones de latencia o costos) también se consideran para el diagnóstico de optimización de marco para ayudar a la eficiencia y precisión de la evaluación de la comunidad de ajuste cuando hay disponibles etiquetas de éxito subggoal de verdad en tierra. Discutimos cómo dicho marco puede permanecer agnóstico modelo, admitir entradas de una visión única o múltiple y ser lo suficientemente liviano como para adoptar en los laboratorios. La contribución prevista es una dirección compartida: una semilla mínima y extensible que invita a las contribuciones de código abierto, de modo que anotar los pasos, no solo el objetivo final, se convierte en una práctica estándar y reproducible.
Publicado Originalme en export.arxiv.org El 24 de septiembre de 2025.
Ver Fuente Original