Divergiendo hacia la alucinación: detección de fallas en modelos en idioma de visión a través de la agregación múltiple

Resumen: Los modelos en idioma de visión (VLMS) ahora rivalizan el rendimiento humano en muchas tareas multimodales, sin embargo, aún alucinan objetos o generan texto inseguro. Los detectores de alucinación actuales, por ejemplo, sondeo lineal de una solakada (SLP) y P (verdadero), generalmente analizan solo el logit del primer token generado o solo su componente de puntuación más alto con vistas a las señales más ricas integradas dentro de las distribuciones de token anteriores. Demostramos que el análisis de la secuencia completa de logits tempranos potencialmente proporciona una información de diagnóstico sustancialmente más. Hacemos hincapié en que las alucinaciones solo pueden surgir después de varias fichas, a medida que se acumulan inconsistencias sutiles con el tiempo. Al analizar la divergencia de Kullback-Leibbler (KL) entre logits correspondientes a los tokens alucinados y no talucinados, subrayamos la importancia de incorporar logits posteriores para capturar con mayor precisión la dinámica de confiabilidad de los VLM. En respuesta, introducimos la estimación de confiabilidad múltiple (MTRE), un método liviano de caja blanca que agrega logits de los primeros diez tokens utilizando relaciones logelimilitudes y autoenitimentamiento de múltiples toking. A pesar de los desafíos planteados por los grandes tamaños de vocabulario y las largas secuencias logit, MTRE sigue siendo eficiente y manejable. En Mad-Bench, MM-SafetyBench, Mathvista y cuatro puntos de referencia de composición-geometría, MTRE mejora AUROC en 9.4 +/- 1.3 puntos sobre SLP y en 12.1 +/- 1.7 puntos sobre P (verdadero), estableciendo un nuevo estado de arte en detección de saubrinación para VLM de código abierto.

Publicado Originalme en rss.arxiv.org El 19 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Planmae de piso: un marco auto-supervisado para la generación completa del plano de las entradas parciales

Topología del razonamiento: Comprender los grandes modelos de razonamiento a través de propiedades de gráficos de razonamiento

La ansiedad de los derechos de autor de IA retendrá la creatividad

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido