En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->ReCAP: planificación y razonamiento recursivo consciente del contexto para agentes de modelos de lenguaje grandes

ReCAP: planificación y razonamiento recursivo consciente del contexto para agentes de modelos de lenguaje grandes

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Las tareas de largo plazo que requieren razonamiento de varios pasos y replanificación dinámica siguen siendo un desafío para los modelos de lenguajes grandes (LLM). Los métodos de indicaciones secuenciales son propensos a la deriva del contexto, la pérdida de información de objetivos y ciclos de falla recurrentes, mientras que los métodos de indicaciones jerárquicas a menudo debilitan la continuidad entre niveles o incurren en una sobrecarga sustancial de tiempo de ejecución. Presentamos ReCAP (Razonamiento y planificación recursiva consciente del contexto), un marco jerárquico con contexto compartido para el razonamiento y la planificación en LLM. ReCAP combina tres mecanismos clave: (i) descomposición del plan anticipado, en la que el modelo genera una lista completa de subtareas, ejecuta el primer elemento y refina el resto; (ii) reinyección estructurada de los planes principales, manteniendo un contexto multinivel consistente durante el retorno recursivo; y (iii) ejecución eficiente en memoria, limitando el mensaje activo de modo que los costos aumenten linealmente con la profundidad de la tarea. Juntos, estos mecanismos alinean objetivos de alto nivel con acciones de bajo nivel, reducen las indicaciones redundantes y preservan actualizaciones de contexto coherentes en toda la recursión. Los experimentos demuestran que ReCAP mejora sustancialmente la alineación de subobjetivos y las tasas de éxito en varios puntos de referencia de razonamiento a largo plazo, logrando una ganancia del 32 % en Robotouille sincrónico y una mejora del 29 % en Robotouille asíncrono bajo el estricto protocolo pass@1.

Publicado originalmente en export.arxiv.org el 28 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web