MPR-GUI: Evaluación comparativa y mejora de la percepción y el razonamiento multilingüe en agentes GUI

Resumen:Con el avance de los recursos computacionales, los modelos de lenguaje-visión de gran tamaño (LVLM) exhiben un rendimiento impresionante de percepción y razonamiento (P&R) en tareas de interfaz gráfica de usuario (GUI). Sin embargo, aunque demuestran sólidas capacidades de P&R en escenarios GUI en inglés, su rendimiento en entornos multilingües ha recibido poca atención, lo que limita sus aplicaciones globales. Además, los estudios existentes sobre tareas de GUI carecen de análisis detallados, incluidas las funciones de los widgets y las relaciones espaciales de los elementos, que son fundamentales para mejoras más específicas. Para abordar estos problemas, proponemos MPR-GUI-Bench, un punto de referencia de GUI de percepción y razonamiento multilingüe detallado para evaluar las capacidades de P&R de los agentes de GUI. Los resultados de la evaluación demuestran que los LVLM exhiben un desempeño de P&R significativamente peor en idiomas distintos del inglés que en inglés. Para abordar estas brechas, proponemos GUI-XLI, un método de intervención multilingüe GUI que aplica intervenciones a los estados ocultos en las capas relacionadas con la capacidad de P&R para mitigar las brechas entre el inglés y otros idiomas, basándose en investigaciones previas que muestran que los estados ocultos de diferentes entradas de idiomas exhiben diferencias significativas en el espacio latente. Los resultados experimentales indican que nuestro método mejora la capacidad de P&R multilingüe de los agentes GUI en un 6,5% en promedio.

Publicado originalmente en export.arxiv.org el 1 de diciembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

OMNIACC: Asistente de accesibilidad personalizado utilizando IA generativa

Una nueva startup de CRISPR apuesta a que los reguladores facilitarán la edición de genes

Razonamiento con una estrella: un conjunto de datos de heliofísica y un punto de referencia para el razonamiento científico agente

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido