Compromiso de la evaluación web basada en MLLM: razonamiento, robustez y seguridad

Resumen: Los modelos de lenguaje grande multimodal (MLLMS) se posicionan cada vez más como colaboradores de IA para construir aplicaciones complejas relacionadas con la web como agentes de GUI y generación de código front-end. Sin embargo, los puntos de referencia existentes enfatizan en gran medida la percepción visual o la generación de código de la interfaz de usuario, que muestra una evaluación insuficiente sobre el razonamiento, la robustez y la capacidad de seguridad requerida para aplicaciones web de extremo a extremo. Para cerrar la brecha, introducimos un punto de referencia integral de comprensión web, llamado WebRSSSBIGH, que evalúa conjuntamente el razonamiento, la robustez y la seguridad en ocho tareas, como el razonamiento de la relación de posición, la robustez de color y la detección crítica de seguridad, etc. El margen de referencia se construye a partir de 729 sitios web y contiene 3799 pares de respuestas de respuestas multicolteras. Para garantizar una medición confiable, adoptamos indicaciones estandarizadas, scripts de evaluación deterministas y control de calidad de varias etapas que combina verificaciones automáticas con verificación humana dirigida. Evaluamos 12 MLLM en WebRSSBIGH. Los resultados revelan brechas significativas, los modelos aún luchan con el razonamiento compositivo y de elementos transversales sobre los diseños realistas, muestran robustez limitada al enfrentar perturbaciones en las interfaces de los usuarios y el contenido, como los reorganizaciones de diseño o los cambios de estilo visual, y son bastante conservadores para reconocer y evitar la seguridad de acciones críticas o irreversibles. Nuestro código está disponible en esta URL HTTPS.

Publicado Originalme en export.arxiv.org El 28 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Un marco agente para la implementación rápida de soluciones de IA perimetral en la Industria 5.0

Los modelos de lenguaje son capaces de monitoreo metacognitivo y control de sus activaciones internas

El cambio de paradigma: una encuesta exhaustiva sobre modelos de lenguaje de visión amplia para la detección multimodal de noticias falsas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido