Resumen: Los modelos en idioma de visión (VLMS) han logrado un progreso notable en la comprensión visual compleja en las tareas científicas y de razonamiento. Si bien la evaluación comparativa de rendimiento ha avanzado nuestra comprensión de estas capacidades, la dimensión crítica de la cuantificación de la incertidumbre ha recibido atención insuficiente. Por lo tanto, a diferencia de los estudios de predicción conformales anteriores que se centraron en entornos limitados, realizamos un estudio integral de benchmarking de incertidumbre, evaluando 16 VLM de última generación (código abierto y cerrado) en 6 conjuntos de datos multimodales con 3 funciones de puntuación claras. Nuestros hallazgos demuestran que los modelos más grandes exhiben una mejor cuantificación de incertidumbre; Los modelos que saben más también saben mejor lo que no saben. Los modelos más ciertos logran una mayor precisión, mientras que las tareas matemáticas y de razonamiento provocan un rendimiento de incertidumbre más pobre en todos los modelos en comparación con otros dominios. Este trabajo establece una base para la evaluación de incertidumbre confiable en sistemas multimodales.
Publicado Originalme en export.arxiv.org El 17 de septiembre de 2025.
Ver Fuente Original