Resumen:La tasa de finalización de tareas es el indicador estándar de la capacidad del agente LLM, pero los modelos con puntuaciones de finalización idénticas pueden diferir sustancialmente en su capacidad para rastrear el estado intermedio.
Leer más →
Resumen: Investigaciones recientes han demostrado la eficacia de los modelos de lenguaje grande (LLM) en la resolución de problemas de optimización combinatoria (COP) mediante la representación de tareas e instancias en lenguaje natural.
Leer más →
Resumen: Los modelos de lenguaje grande (LLM) se utilizan cada vez más para la tutoría automatizada, pero su confiabilidad en dominios simbólicos estructurados aún no está clara. Estudiamos la retroalimentación a nivel de paso para pruebas de lógica proposicional, que requieren un razonamiento simbólico preciso alineado con el estado de prueba actual del alumno.
Leer más →