Resumen:La comprensión del lenguaje natural requiere entrelazar razonamiento textual y lógico, pero los modelos de lenguaje grandes a menudo no logran realizar dicho razonamiento de manera confiable.
Leer más →
Resumen:La capacitación previa en políticas de robots escalables se ha visto obstaculizada por el alto costo de recopilar demostraciones de alta calidad para cada plataforma. En este estudio, abordamos este problema uniendo el aprendizaje por refuerzo fuera de línea (RL fuera de línea) con el aprendizaje entre encarnaciones.
Leer más →
Resumen: Los sistemas basados en LLM generan cada vez más flujos de trabajo estructurados para tareas complejas. En la práctica, la evaluación automática de estos flujos de trabajo es difícil porque las puntuaciones de las métricas a menudo no están calibradas y los cambios en las puntuaciones no comunican directamente la gravedad de la degradación del flujo de trabajo.
Leer más →