Resumen: La evaluación de confianza precisa de los modelos de lenguaje grande (MLLMS) multimodales (MLLM) generó predicciones, que pueden permitir una predicción selectiva y mejorar la confianza del usuario, es un desafío debido a los diversos paradigmas de entrada multimodal. Proponemos un muestreo funcionalmente equivalente para la evaluación de confianza (Festa), una técnica de muestreo de entrada multimodal para MLLM, que genera una medida de incertidumbre basada en muestras de entrada equivalentes y complementarias. El enfoque de muestreo de preservación de tareas propuesto para la cuantificación de la incertidumbre expande el espacio de entrada para sondear la consistencia (a través de muestras equivalentes) y la sensibilidad (a través de muestras complementarias) del modelo. Festa usa solo acceso de entrada-salida del modelo (caja negra), y no requiere una verdad terrestre (sin supervisión). Los experimentos se realizan con varios LLM multimodales estándar, en tareas de razonamiento visual y de audio. La estimación de incertidumbre Festa propuesta logra una mejora significativa (33.3% de mejora relativa para Vision-LLM y una mejora relativa del 29.6% para audio-LLM) en el rendimiento de predicción selectiva, basado en la métrica de curva operativa (AUROC) de operación de área. La implementación del código es de código abierto.
Publicado Originalme en export.arxiv.org El 22 de septiembre de 2025.
Ver Fuente Original
