Resumen:Si bien los modelos multimodales de lenguaje grande (MLLM) tienen agentes de navegación GUI avanzados, los enfoques actuales enfrentan limitaciones en la generalización entre dominios y la utilización efectiva del historial. Presentamos un marco de razonamiento mejorado que integra sistemáticamente razonamiento estructurado, predicción de acciones y resumen histórico.
Leer más →
Resumen: Las máquinas de recompensa (RM) informan a los agentes de aprendizaje por refuerzo sobre la estructura de recompensa del entorno. Esto es particularmente ventajoso para tareas complejas no markovianas porque los agentes con acceso a RM pueden aprender de manera más eficiente con menos muestras.
Leer más →
Resumen: Los grandes modelos de razonamiento (LRM) han demostrado capacidades impresionantes, pero adolecen de ineficiencias cognitivas como “pensar demasiado” en problemas simples y “pensar insuficientemente” en problemas complejos.
Leer más →