En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Por qué el razonamiento no permite planificar: un análisis centrado en la planificación de la toma de decisiones a largo plazo en agentes de LLM

Por qué el razonamiento no permite planificar: un análisis centrado en la planificación de la toma de decisiones a largo plazo en agentes de LLM

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los agentes basados ​​en modelos de lenguaje grande (LLM) exhiben sólidas capacidades de razonamiento paso a paso en horizontes cortos, pero a menudo no logran mantener un comportamiento coherente en horizontes de planificación largos. Argumentamos que este fracaso refleja un desajuste fundamental: el razonamiento gradual induce una forma de política codiciosa gradual que es adecuada para horizontes cortos pero falla en la planificación a largo plazo, donde las acciones tempranas deben tener en cuenta las consecuencias tardías. Desde esta perspectiva centrada en la planificación, estudiamos agentes basados ​​en LLM en entornos deterministas y totalmente estructurados con transiciones de estado explícitas y señales de evaluación. Nuestro análisis revela un modo de fracaso central de las políticas basadas en el razonamiento: las elecciones localmente óptimas inducidas por una puntuación gradual conducen a compromisos miopes tempranos que se amplifican sistemáticamente con el tiempo y de los que es difícil recuperarse. Presentamos FLARE (Future-aware-aware Lookahead with Reward Estimation) como una instancia mínima de planificación consciente del futuro para imponer una anticipación explícita, propagación de valor y compromiso limitado en un solo modelo, permitiendo que los resultados posteriores influyan en las decisiones tempranas. A través de múltiples puntos de referencia, marcos de agentes y pilares de LLM, FLARE mejora constantemente el desempeño de las tareas y el comportamiento a nivel de planificación, lo que con frecuencia permite que LLaMA-8B con FLARE supere a GPT-4o con razonamiento estándar paso a paso. Estos resultados establecen una clara distinción entre razonamiento y planificación.

Publicado originalmente en export.arxiv.org el 1 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web