Piense rápido y despacio: adaptación de la profundidad cognitiva a nivel gradual para agentes de LLM

Resumen: Los modelos de lenguajes grandes (LLM) se implementan cada vez más como agentes autónomos para tareas de toma de decisiones de múltiples turnos. Sin embargo, los agentes actuales suelen depender de patrones cognitivos fijos: los modelos no pensantes generan respuestas inmediatas, mientras que los modelos pensantes participan en un razonamiento profundo de manera uniforme. Esta rigidez es ineficiente para tareas de largo horizonte, donde las demandas cognitivas varían significativamente de un paso a otro, algunas requieren planificación estratégica y otras solo ejecución rutinaria. En este artículo, presentamos CogRouter, un marco que entrena a los agentes para adaptar dinámicamente la profundidad cognitiva en cada paso. Basados en la teoría ACT-R, diseñamos cuatro niveles cognitivos jerárquicos que van desde respuestas instintivas hasta planificación estratégica. Nuestro enfoque de capacitación en dos etapas incluye un ajuste fino supervisado consciente de la cognición (CoSFT) para inculcar patrones estables específicos de nivel, y una optimización de políticas consciente de la cognición (CoPO) para la asignación de créditos de nivel escalonado a través de una reponderación de ventajas consciente de la confianza. La idea clave es que la profundidad cognitiva adecuada debería maximizar la confianza de la acción resultante. Los experimentos realizados en ALFWorld y ScienceWorld demuestran que CogRouter logra un rendimiento de última generación con una eficiencia superior. Con Qwen2.5-7B, alcanza una tasa de éxito del 82,3%, superando a GPT-4o (+40,3%), OpenAI-o3 (+18,3%) y GRPO (+14,0%), mientras utiliza un 62% menos de tokens.

Publicado originalmente en export.arxiv.org el 15 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

JEDA: Búsqueda de pedidos clínicos sin consultas desde Ambient Dialogues

Pronosticador AIA: Informe técnico

De texto a red: construyendo un gráfico de conocimiento de los estudios de China basados ​​en Taiwán utilizando IA generativa

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

De texto a red: construyendo un gráfico de conocimiento de los estudios de China basados en Taiwán utilizando IA generativa