Resumen: La combinación de múltiples modelos de visión y lenguaje (VLM) puede mejorar el razonamiento multimodal y la solidez, pero agregar resultados de modelos heterogéneos amplifica la incertidumbre y aumenta el riesgo de alucinaciones. Proponemos SCoOP (Semantic-Consistent Opinion Pooling), un sistema multi-VLM de marco de cuantificación de incertidumbre (UQ) sin capacitación a través de un pool de opiniones lineal ponderado por incertidumbre. A diferencia de los métodos UQ anteriores diseñados para modelos únicos, SCoOP mide explícitamente la incertidumbre colectiva a nivel de sistema en múltiples VLM, lo que permite una detección y abstención efectiva de alucinaciones para muestras altamente inciertas. En ScienceQA, SCoOP logra un AUROC de 0,866 para la detección de alucinaciones, superando las líneas de base (0,732-0,757) en aproximadamente un 10-13 %. En cuanto a la abstención, alcanza un AURAC de 0,907, superando los valores de referencia (0,818-0,840) entre un 7% y un 9%. A pesar de estas ganancias, SCoOP introduce solo una sobrecarga de agregación a nivel de microsegundos en relación con las líneas de base, lo cual es trivial en comparación con el tiempo de inferencia típico de VLM (del orden de segundos). Estos resultados demuestran que SCoOP proporciona un mecanismo eficiente y basado en principios para la agregación consciente de la incertidumbre, lo que mejora la confiabilidad de los sistemas de IA multimodales.
Publicado originalmente en export.arxiv.org el 25 de marzo de 2026.
Ver fuente original
