El arte de decir "tal vez": una lente conforme para la composición de la incertidumbre en VLMS | Asociación Mexicana del Internet de las Cosas A.C.

Resumen: Los modelos en idioma de visión (VLMS) han logrado un progreso notable en la comprensión visual compleja en las tareas científicas y de razonamiento. Si bien la evaluación comparativa de rendimiento ha avanzado nuestra comprensión de estas capacidades, la dimensión crítica de la cuantificación de la incertidumbre ha recibido atención insuficiente. Por lo tanto, a diferencia de los estudios de predicción conformales anteriores que se centraron en entornos limitados, realizamos un estudio integral de benchmarking de incertidumbre, evaluando 16 VLM de última generación (código abierto y cerrado) en 6 conjuntos de datos multimodales con 3 funciones de puntuación claras. Nuestros hallazgos demuestran que los modelos más grandes exhiben una mejor cuantificación de incertidumbre; Los modelos que saben más también saben mejor lo que no saben. Los modelos más ciertos logran una mayor precisión, mientras que las tareas matemáticas y de razonamiento provocan un rendimiento de incertidumbre más pobre en todos los modelos en comparación con otros dominios. Este trabajo establece una base para la evaluación de incertidumbre confiable en sistemas multimodales.

Publicado Originalme en export.arxiv.org El 17 de septiembre de 2025.
Ver Fuente Original

El arte de decir “tal vez”: una lente conforme para la composición de la incertidumbre en VLMS

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Cuando los modelos saben más de lo que pueden explicar: cuantificar la transferencia de conocimiento en la colaboración de Human-AI

Keraia: un marco adaptativo y explicable para la representación y el razonamiento de conocimiento dinámico

Un marco para AGI inherentemente más seguro a través de la inferencia activa mediada por el lenguaje

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido