Por qué el razonamiento no permite planificar: un análisis centrado en la planificación de la toma de decisiones a largo plazo en agentes de LLM

Resumen: Los agentes basados en modelos de lenguaje grande (LLM) exhiben sólidas capacidades de razonamiento paso a paso en horizontes cortos, pero a menudo no logran mantener un comportamiento coherente en horizontes de planificación largos. Argumentamos que este fracaso refleja un desajuste fundamental: el razonamiento gradual induce una forma de política codiciosa gradual que es adecuada para horizontes cortos pero falla en la planificación a largo plazo, donde las acciones tempranas deben tener en cuenta las consecuencias tardías. Desde esta perspectiva centrada en la planificación, estudiamos agentes basados en LLM en entornos deterministas y totalmente estructurados con transiciones de estado explícitas y señales de evaluación. Nuestro análisis revela un modo de fracaso central de las políticas basadas en el razonamiento: las elecciones localmente óptimas inducidas por una puntuación gradual conducen a compromisos miopes tempranos que se amplifican sistemáticamente con el tiempo y de los que es difícil recuperarse. Presentamos FLARE (Future-aware-aware Lookahead with Reward Estimation) como una instancia mínima de planificación consciente del futuro para imponer una anticipación explícita, propagación de valor y compromiso limitado en un solo modelo, permitiendo que los resultados posteriores influyan en las decisiones tempranas. A través de múltiples puntos de referencia, marcos de agentes y pilares de LLM, FLARE mejora constantemente el desempeño de las tareas y el comportamiento a nivel de planificación, lo que con frecuencia permite que LLaMA-8B con FLARE supere a GPT-4o con razonamiento estándar paso a paso. Estos resultados establecen una clara distinción entre razonamiento y planificación.

Publicado originalmente en export.arxiv.org el 1 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Esta empresa de reciclaje de baterías ahora está limpiando los centros de datos de IA

Un marco lógico difuso que solicita modelos de idiomas grandes en tareas adaptativas e inciertas

Más allá de la detección en el dominio: SpikeScore para la detección de alucinaciones entre dominios

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido