Resumen: Los modelos de lenguajes grandes pueden funcionar bien en muchas tareas aisladas, pero continúan teniendo dificultades en problemas de agencia de horizontes largos y de múltiples turnos que requieren habilidades como planificación, seguimiento de estado y procesamiento de contexto prolongado. En este trabajo, nuestro objetivo es comprender mejor la importancia relativa de promover estas capacidades subyacentes para el éxito en tales tareas. Desarrollamos un marco contrafactual de Oracle para problemas de múltiples turnos que pregunta: ¿cómo se desempeñaría un agente si pudiera aprovechar un oráculo para realizar perfectamente una tarea específica? El cambio en el desempeño del agente debido a esta asistencia de Oracle nos permite medir la importancia de dicha habilidad de Oracle en el futuro avance de los agentes de IA. Presentamos un conjunto de tareas similares a juegos generadas por procedimientos con complejidad ajustable. Estos entornos controlados nos permiten proporcionar intervenciones de oráculo precisas, como una planificación perfecta o un seguimiento de estado impecable, y hacen posible aislar la contribución de cada oráculo sin efectos de confusión presentes en los puntos de referencia del mundo real. Nuestros resultados muestran que si bien algunas intervenciones (por ejemplo, la planificación) mejoran consistentemente el desempeño en todos los entornos, la utilidad de otras habilidades depende de las propiedades del entorno y del modelo lingüístico. Nuestro trabajo arroja luz sobre los desafíos de los entornos de agentes de múltiples turnos para guiar los esfuerzos futuros en el desarrollo de agentes de IA y modelos de lenguaje.
Publicado originalmente en export.arxiv.org el 25 de enero de 2026.
Ver fuente original
