En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Sondeo de invariancia guiado por el lenguaje de modelos de visión-lenguaje

Sondeo de invariancia guiado por el lenguaje de modelos de visión-lenguaje

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:En nueve VLM, EVA02-CLIP y las variantes grandes de OpenCLIP se encuentran en una frontera favorable de invariancia-sensibilidad, combinando una baja varianza inducida por la paráfrasis con puntuaciones consistentemente más altas para los subtítulos originales que para sus contrapartes invertidas. Por el contrario, SigLIP y SigLIP2 muestran un error de invariancia mucho mayor y, a menudo, prefieren subtítulos invertidos a las descripciones humanas, especialmente para ediciones de objetos y colores. Estos fallos son en gran medida invisibles para las métricas de recuperación estándar, lo que indica que LGIP proporciona un diagnóstico independiente del modelo para la solidez lingüística de los VLM más allá de las puntuaciones de precisión convencionales.

Publicado originalmente en export.arxiv.org el 15 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web