En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Prore: un sistema de recompensa proactivo para agentes de la GUI a través de la colaboración de razonamiento-actor

Prore: un sistema de recompensa proactivo para agentes de la GUI a través de la colaboración de razonamiento-actor

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La recompensa es crítica para la evaluación y la capacitación de modelos de idiomas grandes (LLM). Sin embargo, los métodos de recompensa basados ​​en reglas existentes o basados ​​en modelos luchan para generalizarse a los agentes de la GUI, donde el acceso a trayectorias de verdad en tierra o bases de datos de aplicaciones a menudo no está disponible, y los enfoques de jueces LLM-AS-AS de trayectoria estática sufren una precisión limitada. Para abordar estos desafíos, proponemos Prore, un sistema de recompensa proactivo que aprovecha un razonador de uso general y agentes evaluadores específicos del dominio (actores). El razonador programa las tareas de sondeo de estado dirigidas, que los agentes evaluadores ejecutan al interactuar activamente con el entorno para recopilar observaciones adicionales. Esto permite que el razonador asigne recompensas más precisas y verificables a los agentes de la GUI. Los resultados empíricos en trayectorias de más de 3K demuestran que Prore mejora la precisión de la recompensa y la puntuación F1 en hasta 5.3% y 19.4%, respectivamente. Además, la integración de Prore con agentes de política de última generación produce una mejora de la tasa de éxito de hasta el 22,4%.

Publicado Originalme en export.arxiv.org El 28 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web