SCoOP: agrupación de opiniones semánticas consistentes para la cuantificación de la incertidumbre en múltiples sistemas modelo de visión y lenguaje

Resumen: La combinación de múltiples modelos de visión y lenguaje (VLM) puede mejorar el razonamiento multimodal y la solidez, pero agregar resultados de modelos heterogéneos amplifica la incertidumbre y aumenta el riesgo de alucinaciones. Proponemos SCoOP (Semantic-Consistent Opinion Pooling), un sistema multi-VLM de marco de cuantificación de incertidumbre (UQ) sin capacitación a través de un pool de opiniones lineal ponderado por incertidumbre. A diferencia de los métodos UQ anteriores diseñados para modelos únicos, SCoOP mide explícitamente la incertidumbre colectiva a nivel de sistema en múltiples VLM, lo que permite una detección y abstención efectiva de alucinaciones para muestras altamente inciertas. En ScienceQA, SCoOP logra un AUROC de 0,866 para la detección de alucinaciones, superando las líneas de base (0,732-0,757) en aproximadamente un 10-13 %. En cuanto a la abstención, alcanza un AURAC de 0,907, superando los valores de referencia (0,818-0,840) entre un 7% y un 9%. A pesar de estas ganancias, SCoOP introduce solo una sobrecarga de agregación a nivel de microsegundos en relación con las líneas de base, lo cual es trivial en comparación con el tiempo de inferencia típico de VLM (del orden de segundos). Estos resultados demuestran que SCoOP proporciona un mecanismo eficiente y basado en principios para la agregación consciente de la incertidumbre, lo que mejora la confiabilidad de los sistemas de IA multimodales.

Publicado originalmente en export.arxiv.org el 25 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Steve-Evolving: autoevolución encarnada en un mundo abierto a través de un diagnóstico detallado y una destilación de conocimientos de doble vía

Sintonizando el futuro de la colaboración

Razonamiento causal comprimido: efectos de cuantificación y GraphRAG sobre la precisión intervencionista y contrafactual

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido