Prore: un sistema de recompensa proactivo para agentes de la GUI a través de la colaboración de razonamiento-actor

Resumen: La recompensa es crítica para la evaluación y la capacitación de modelos de idiomas grandes (LLM). Sin embargo, los métodos de recompensa basados en reglas existentes o basados en modelos luchan para generalizarse a los agentes de la GUI, donde el acceso a trayectorias de verdad en tierra o bases de datos de aplicaciones a menudo no está disponible, y los enfoques de jueces LLM-AS-AS de trayectoria estática sufren una precisión limitada. Para abordar estos desafíos, proponemos Prore, un sistema de recompensa proactivo que aprovecha un razonador de uso general y agentes evaluadores específicos del dominio (actores). El razonador programa las tareas de sondeo de estado dirigidas, que los agentes evaluadores ejecutan al interactuar activamente con el entorno para recopilar observaciones adicionales. Esto permite que el razonador asigne recompensas más precisas y verificables a los agentes de la GUI. Los resultados empíricos en trayectorias de más de 3K demuestran que Prore mejora la precisión de la recompensa y la puntuación F1 en hasta 5.3% y 19.4%, respectivamente. Además, la integración de Prore con agentes de política de última generación produce una mejora de la tasa de éxito de hasta el 22,4%.

Publicado Originalme en export.arxiv.org El 28 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La Fundación Linux anuncia un cronograma para la cumbre anual de miembros

Investigación de la “psique” de los grandes modelos de razonamiento: comprensión a través de una lente humana

QuickGrasp: planificación antipodal liviana con nubes de puntos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido