Sondeo de invariancia guiado por el lenguaje de modelos de visión-lenguaje
Resumen:En nueve VLM, EVA02-CLIP y las variantes grandes de OpenCLIP se encuentran en una frontera favorable de invariancia-sensibilidad, combinando una baja varianza inducida por la paráfrasis con puntuaciones consistentemente más altas para los subtítulos originales que para sus contrapartes invertidas.
Leer más →