Festa: muestreo funcionalmente equivalente para la evaluación de la confianza de los LLM multimodales

Resumen: La evaluación de confianza precisa de los modelos de lenguaje grande (MLLMS) multimodales (MLLM) generó predicciones, que pueden permitir una predicción selectiva y mejorar la confianza del usuario, es un desafío debido a los diversos paradigmas de entrada multimodal. Proponemos un muestreo funcionalmente equivalente para la evaluación de confianza (Festa), una técnica de muestreo de entrada multimodal para MLLM, que genera una medida de incertidumbre basada en muestras de entrada equivalentes y complementarias. El enfoque de muestreo de preservación de tareas propuesto para la cuantificación de la incertidumbre expande el espacio de entrada para sondear la consistencia (a través de muestras equivalentes) y la sensibilidad (a través de muestras complementarias) del modelo. Festa usa solo acceso de entrada-salida del modelo (caja negra), y no requiere una verdad terrestre (sin supervisión). Los experimentos se realizan con varios LLM multimodales estándar, en tareas de razonamiento visual y de audio. La estimación de incertidumbre Festa propuesta logra una mejora significativa (33.3% de mejora relativa para Vision-LLM y una mejora relativa del 29.6% para audio-LLM) en el rendimiento de predicción selectiva, basado en la métrica de curva operativa (AUROC) de operación de área. La implementación del código es de código abierto.

Publicado Originalme en export.arxiv.org El 22 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Los ladrones de tiendas pronto podrían ser perseguidos por drones

Transformar la complejidad en oportunidades con ingeniería digital

Formalización automatizada a través de LLM de recuperación conceptual

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido