Resumen: La optimización de políticas relativas de grupo (GRPO) se ha convertido en un método eficaz para entrenar modelos de razonamiento.
Leer más →
Resumen: Los agentes encarnados en un mundo abierto deben resolver tareas de largo plazo donde el principal cuello de botella no es la calidad de la planificación de un solo paso, sino cómo se organiza y evoluciona la experiencia de interacción.
Leer más →
Resumen: Presentamos **CRYSTAL** (*__C__lear __R__easoning via __Y__ielded __S__teps, __T__raceability and __L__ogic*), un punto de referencia de diagnóstico con 6,372 instancias que evalúa el razonamiento multimodal a través de pasos intermedios verificables.
Leer más →