Resumen: Los agentes basados en modelos de lenguaje grande (LLM) exhiben sólidas capacidades de razonamiento paso a paso en horizontes cortos, pero a menudo no logran mantener un comportamiento coherente en horizontes de planificación largos. Argumentamos que este fracaso refleja un desajuste fundamental: el razonamiento gradual induce una forma de política codiciosa gradual que es adecuada para horizontes cortos pero falla en la planificación a largo plazo, donde las acciones tempranas deben tener en cuenta las consecuencias tardías. Desde esta perspectiva centrada en la planificación, estudiamos agentes basados en LLM en entornos deterministas y totalmente estructurados con transiciones de estado explícitas y señales de evaluación. Nuestro análisis revela un modo de fracaso central de las políticas basadas en el razonamiento: las elecciones localmente óptimas inducidas por una puntuación gradual conducen a compromisos miopes tempranos que se amplifican sistemáticamente con el tiempo y de los que es difícil recuperarse. Presentamos FLARE (Future-aware-aware Lookahead with Reward Estimation) como una instancia mínima de planificación consciente del futuro para imponer una anticipación explícita, propagación de valor y compromiso limitado en un solo modelo, permitiendo que los resultados posteriores influyan en las decisiones tempranas. A través de múltiples puntos de referencia, marcos de agentes y pilares de LLM, FLARE mejora constantemente el desempeño de las tareas y el comportamiento a nivel de planificación, lo que con frecuencia permite que LLaMA-8B con FLARE supere a GPT-4o con razonamiento estándar paso a paso. Estos resultados establecen una clara distinción entre razonamiento y planificación.
Publicado originalmente en export.arxiv.org el 1 de febrero de 2026.
Ver fuente original
