En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Divergiendo hacia la alucinación: detección de fallas en modelos en idioma de visión a través de la agregación múltiple

Divergiendo hacia la alucinación: detección de fallas en modelos en idioma de visión a través de la agregación múltiple

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos en idioma de visión (VLMS) ahora rivalizan el rendimiento humano en muchas tareas multimodales, sin embargo, aún alucinan objetos o generan texto inseguro. Los detectores de alucinación actuales, por ejemplo, sondeo lineal de una solakada (SLP) y P (verdadero), generalmente analizan solo el logit del primer token generado o solo su componente de puntuación más alto con vistas a las señales más ricas integradas dentro de las distribuciones de token anteriores. Demostramos que el análisis de la secuencia completa de logits tempranos potencialmente proporciona una información de diagnóstico sustancialmente más. Hacemos hincapié en que las alucinaciones solo pueden surgir después de varias fichas, a medida que se acumulan inconsistencias sutiles con el tiempo. Al analizar la divergencia de Kullback-Leibbler (KL) entre logits correspondientes a los tokens alucinados y no talucinados, subrayamos la importancia de incorporar logits posteriores para capturar con mayor precisión la dinámica de confiabilidad de los VLM. En respuesta, introducimos la estimación de confiabilidad múltiple (MTRE), un método liviano de caja blanca que agrega logits de los primeros diez tokens utilizando relaciones logelimilitudes y autoenitimentamiento de múltiples toking. A pesar de los desafíos planteados por los grandes tamaños de vocabulario y las largas secuencias logit, MTRE sigue siendo eficiente y manejable. En Mad-Bench, MM-SafetyBench, Mathvista y cuatro puntos de referencia de composición-geometría, MTRE mejora AUROC en 9.4 +/- 1.3 puntos sobre SLP y en 12.1 +/- 1.7 puntos sobre P (verdadero), estableciendo un nuevo estado de arte en detección de saubrinación para VLM de código abierto.

Publicado Originalme en rss.arxiv.org El 19 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web