Resumen:En nueve VLM, EVA02-CLIP y las variantes grandes de OpenCLIP se encuentran en una frontera favorable de invariancia-sensibilidad, combinando una baja varianza inducida por la paráfrasis con puntuaciones consistentemente más altas para los subtítulos originales que para sus contrapartes invertidas. Por el contrario, SigLIP y SigLIP2 muestran un error de invariancia mucho mayor y, a menudo, prefieren subtítulos invertidos a las descripciones humanas, especialmente para ediciones de objetos y colores. Estos fallos son en gran medida invisibles para las métricas de recuperación estándar, lo que indica que LGIP proporciona un diagnóstico independiente del modelo para la solidez lingüística de los VLM más allá de las puntuaciones de precisión convencionales.
Publicado originalmente en export.arxiv.org el 15 de febrero de 2026.
Ver fuente original
