En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Piense rápido y despacio: adaptación de la profundidad cognitiva a nivel gradual para agentes de LLM

Piense rápido y despacio: adaptación de la profundidad cognitiva a nivel gradual para agentes de LLM

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguajes grandes (LLM) se implementan cada vez más como agentes autónomos para tareas de toma de decisiones de múltiples turnos. Sin embargo, los agentes actuales suelen depender de patrones cognitivos fijos: los modelos no pensantes generan respuestas inmediatas, mientras que los modelos pensantes participan en un razonamiento profundo de manera uniforme. Esta rigidez es ineficiente para tareas de largo horizonte, donde las demandas cognitivas varían significativamente de un paso a otro, algunas requieren planificación estratégica y otras solo ejecución rutinaria. En este artículo, presentamos CogRouter, un marco que entrena a los agentes para adaptar dinámicamente la profundidad cognitiva en cada paso. Basados ​​en la teoría ACT-R, diseñamos cuatro niveles cognitivos jerárquicos que van desde respuestas instintivas hasta planificación estratégica. Nuestro enfoque de capacitación en dos etapas incluye un ajuste fino supervisado consciente de la cognición (CoSFT) para inculcar patrones estables específicos de nivel, y una optimización de políticas consciente de la cognición (CoPO) para la asignación de créditos de nivel escalonado a través de una reponderación de ventajas consciente de la confianza. La idea clave es que la profundidad cognitiva adecuada debería maximizar la confianza de la acción resultante. Los experimentos realizados en ALFWorld y ScienceWorld demuestran que CogRouter logra un rendimiento de última generación con una eficiencia superior. Con Qwen2.5-7B, alcanza una tasa de éxito del 82,3%, superando a GPT-4o (+40,3%), OpenAI-o3 (+18,3%) y GRPO (+14,0%), mientras utiliza un 62% menos de tokens.

Publicado originalmente en export.arxiv.org el 15 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web