En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->El arte de decir “tal vez”: una lente conforme para la composición de la incertidumbre en VLMS

El arte de decir “tal vez”: una lente conforme para la composición de la incertidumbre en VLMS

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos en idioma de visión (VLMS) han logrado un progreso notable en la comprensión visual compleja en las tareas científicas y de razonamiento. Si bien la evaluación comparativa de rendimiento ha avanzado nuestra comprensión de estas capacidades, la dimensión crítica de la cuantificación de la incertidumbre ha recibido atención insuficiente. Por lo tanto, a diferencia de los estudios de predicción conformales anteriores que se centraron en entornos limitados, realizamos un estudio integral de benchmarking de incertidumbre, evaluando 16 VLM de última generación (código abierto y cerrado) en 6 conjuntos de datos multimodales con 3 funciones de puntuación claras. Nuestros hallazgos demuestran que los modelos más grandes exhiben una mejor cuantificación de incertidumbre; Los modelos que saben más también saben mejor lo que no saben. Los modelos más ciertos logran una mayor precisión, mientras que las tareas matemáticas y de razonamiento provocan un rendimiento de incertidumbre más pobre en todos los modelos en comparación con otros dominios. Este trabajo establece una base para la evaluación de incertidumbre confiable en sistemas multimodales.

Publicado Originalme en export.arxiv.org El 17 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web