Sondeo de invariancia guiado por el lenguaje de modelos de visión-lenguaje

Resumen:En nueve VLM, EVA02-CLIP y las variantes grandes de OpenCLIP se encuentran en una frontera favorable de invariancia-sensibilidad, combinando una baja varianza inducida por la paráfrasis con puntuaciones consistentemente más altas para los subtítulos originales que para sus contrapartes invertidas. Por el contrario, SigLIP y SigLIP2 muestran un error de invariancia mucho mayor y, a menudo, prefieren subtítulos invertidos a las descripciones humanas, especialmente para ediciones de objetos y colores. Estos fallos son en gran medida invisibles para las métricas de recuperación estándar, lo que indica que LGIP proporciona un diagnóstico independiente del modelo para la solidez lingüística de los VLM más allá de las puntuaciones de precisión convencionales.

Publicado originalmente en export.arxiv.org el 15 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Prueba de estrés Alineación deliberativa para el entrenamiento anti-scheming

WebGraphEval: Evaluación de trayectorias de múltiples giros para agentes web mediante representación gráfica

Witar Second Lunch Salon: una introducción práctica al cumplimiento de la protección de datos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido