En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->IntentScore: Evaluación de acciones condicionadas por intención para agentes de uso informático

IntentScore: Evaluación de acciones condicionadas por intención para agentes de uso informático

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los agentes de uso informático (CUA) aprovechan modelos de lenguaje grandes para ejecutar operaciones GUI en entornos de escritorio, pero generan acciones sin evaluar la calidad de las mismas, lo que genera errores irreversibles que se suceden en cascada a través de los pasos posteriores. Proponemos IntentScore, un modelo de recompensa basado en planes que aprende a calificar las acciones candidatas a partir de 398.000 pasos de interacción GUI fuera de línea que abarcan tres sistemas operativos. IntentScore se entrena con dos objetivos complementarios: alineación contrastiva para la relevancia de la acción del estado y clasificación de margen para la corrección de la acción. Arquitectónicamente, incorpora la intención de planificación de cada candidato en el codificador de acciones, lo que permite discriminar entre candidatos con acciones similares pero diferentes fundamentos. IntentScore logra una precisión de discriminación por pares del 97,5% en la evaluación retenida. Implementado como un reclasificador para Agent S3 en OSWorld, un entorno completamente invisible durante el entrenamiento, IntentScore mejora la tasa de éxito de las tareas en 6,9 puntos, lo que demuestra que la estimación de recompensas aprendida de trayectorias heterogéneas fuera de línea se generaliza a agentes invisibles y distribuciones de tareas.

Publicado originalmente en export.arxiv.org el 7 de abril de 2026.
Ver fuente original

admin

Usuario de administración del sitio web