Resumen: El progreso reciente en el razonamiento con modelos de idiomas grandes (LLM), como Deepseek-R1, demuestra capacidades impresionantes en dominios como las matemáticas y la codificación, al exhibir comportamientos cognitivos complejos como verificación, descomposición de objetivos y autorreflexión. Sin embargo, no está claro qué comportamiento es efectivo y qué comportamiento falta para las tareas de agentes de IA de horizonte largo. En este trabajo, proponemos Dyna-Think, un marco de pensamiento que integra la planificación con un modelo mundial interno con razonamiento y actuación para mejorar el rendimiento del agente de IA. Para habilitar Dyna-Pense, proponemos el aprendizaje de imitación de Dyna-Pense (DIT) y el entrenamiento Dyna Dyna (DDT). Para inicializar una política con Dyna-Pense, DIT reconstruye el proceso de pensamiento de R1 para centrarse en realizar la simulación del modelo mundial relevante para la acción propuesta (y planificada), y capacita la política utilizando estos datos reconstruidos. Para mejorar Dyna-Pense, DDT utiliza un proceso de capacitación en dos etapas para mejorar primero la capacidad de modelado mundial del agente a través de objetivos como la predicción estatal o la generación de críticas, y luego mejorar la acción del agente a través de la capacitación de políticas. Evaluamos nuestros métodos en Osworld y demostramos que Dyna-pensamiento mejora el rendimiento en dominio y desactualización del agente, logrando un rendimiento similar de lo mejor de N en comparación con R1 mientras genera 2 veces menos tokens en promedio. Nuestros extensos estudios empíricos revelan que 1) usar la generación de críticas para la capacitación del modelo mundial es efectivo para mejorar el rendimiento de las políticas; y 2) Los agentes de IA con un mejor rendimiento se correlacionan con mejores habilidades de modelado mundial. Creemos que nuestros resultados sugieren una dirección de investigación prometedora para integrar la simulación del modelo mundial en agentes de IA para mejorar su razonamiento, planificación y capacidades de actuación.
Publicado Originalme en rss.arxiv.org El 2 de junio de 2025.
Ver Fuente Original