Resumen: Los modelos de lenguaje grande multimodal (MLLMS) se posicionan cada vez más como colaboradores de IA para construir aplicaciones complejas relacionadas con la web como agentes de GUI y generación de código front-end. Sin embargo, los puntos de referencia existentes enfatizan en gran medida la percepción visual o la generación de código de la interfaz de usuario, que muestra una evaluación insuficiente sobre el razonamiento, la robustez y la capacidad de seguridad requerida para aplicaciones web de extremo a extremo. Para cerrar la brecha, introducimos un punto de referencia integral de comprensión web, llamado WebRSSSBIGH, que evalúa conjuntamente el razonamiento, la robustez y la seguridad en ocho tareas, como el razonamiento de la relación de posición, la robustez de color y la detección crítica de seguridad, etc. El margen de referencia se construye a partir de 729 sitios web y contiene 3799 pares de respuestas de respuestas multicolteras. Para garantizar una medición confiable, adoptamos indicaciones estandarizadas, scripts de evaluación deterministas y control de calidad de varias etapas que combina verificaciones automáticas con verificación humana dirigida. Evaluamos 12 MLLM en WebRSSBIGH. Los resultados revelan brechas significativas, los modelos aún luchan con el razonamiento compositivo y de elementos transversales sobre los diseños realistas, muestran robustez limitada al enfrentar perturbaciones en las interfaces de los usuarios y el contenido, como los reorganizaciones de diseño o los cambios de estilo visual, y son bastante conservadores para reconocer y evitar la seguridad de acciones críticas o irreversibles. Nuestro código está disponible en esta URL HTTPS.
Publicado Originalme en export.arxiv.org El 28 de septiembre de 2025.
Ver Fuente Original