Resumen:Con el avance de los recursos computacionales, los modelos de lenguaje-visión de gran tamaño (LVLM) exhiben un rendimiento impresionante de percepción y razonamiento (P&R) en tareas de interfaz gráfica de usuario (GUI). Sin embargo, aunque demuestran sólidas capacidades de P&R en escenarios GUI en inglés, su rendimiento en entornos multilingües ha recibido poca atención, lo que limita sus aplicaciones globales. Además, los estudios existentes sobre tareas de GUI carecen de análisis detallados, incluidas las funciones de los widgets y las relaciones espaciales de los elementos, que son fundamentales para mejoras más específicas. Para abordar estos problemas, proponemos MPR-GUI-Bench, un punto de referencia de GUI de percepción y razonamiento multilingüe detallado para evaluar las capacidades de P&R de los agentes de GUI. Los resultados de la evaluación demuestran que los LVLM exhiben un desempeño de P&R significativamente peor en idiomas distintos del inglés que en inglés. Para abordar estas brechas, proponemos GUI-XLI, un método de intervención multilingüe GUI que aplica intervenciones a los estados ocultos en las capas relacionadas con la capacidad de P&R para mitigar las brechas entre el inglés y otros idiomas, basándose en investigaciones previas que muestran que los estados ocultos de diferentes entradas de idiomas exhiben diferencias significativas en el espacio latente. Los resultados experimentales indican que nuestro método mejora la capacidad de P&R multilingüe de los agentes GUI en un 6,5% en promedio.
Publicado originalmente en export.arxiv.org el 1 de diciembre de 2025.
Ver fuente original
