IntentScore: Evaluación de acciones condicionadas por intención para agentes de uso informático

Resumen: Los agentes de uso informático (CUA) aprovechan modelos de lenguaje grandes para ejecutar operaciones GUI en entornos de escritorio, pero generan acciones sin evaluar la calidad de las mismas, lo que genera errores irreversibles que se suceden en cascada a través de los pasos posteriores. Proponemos IntentScore, un modelo de recompensa basado en planes que aprende a calificar las acciones candidatas a partir de 398.000 pasos de interacción GUI fuera de línea que abarcan tres sistemas operativos. IntentScore se entrena con dos objetivos complementarios: alineación contrastiva para la relevancia de la acción del estado y clasificación de margen para la corrección de la acción. Arquitectónicamente, incorpora la intención de planificación de cada candidato en el codificador de acciones, lo que permite discriminar entre candidatos con acciones similares pero diferentes fundamentos. IntentScore logra una precisión de discriminación por pares del 97,5% en la evaluación retenida. Implementado como un reclasificador para Agent S3 en OSWorld, un entorno completamente invisible durante el entrenamiento, IntentScore mejora la tasa de éxito de las tareas en 6,9 puntos, lo que demuestra que la estimación de recompensas aprendida de trayectorias heterogéneas fuera de línea se generaliza a agentes invisibles y distribuciones de tareas.

Publicado originalmente en export.arxiv.org el 7 de abril de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Los puntos de referencia de la IA no se cumplen. En su lugar, esto es lo que necesitamos.

Pramana: Ajuste de modelos de lenguaje grandes para el razonamiento epistémico a través de Navya-Nyaya

CLÁUSULA Better Call: Un punto de referencia de discrepancia para auditar las capacidades de razonamiento legal de los LLM

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido