En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Más allá de la detección en el dominio: SpikeScore para la detección de alucinaciones entre dominios

Más allá de la detección en el dominio: SpikeScore para la detección de alucinaciones entre dominios

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La detección de alucinaciones es fundamental para implementar modelos de lenguaje grandes (LLM) en aplicaciones del mundo real. Los métodos de detección de alucinaciones existentes logran un rendimiento sólido cuando los datos de entrenamiento y de prueba provienen del mismo dominio, pero adolecen de una generalización deficiente entre dominios. En este artículo, estudiamos un problema importante pero pasado por alto, denominado detección de alucinaciones generalizables (GHD), que tiene como objetivo entrenar detectores de alucinaciones con datos de un solo dominio y al mismo tiempo garantizar un rendimiento sólido en diversos dominios relacionados. Al estudiar GHD, simulamos diálogos de múltiples turnos después de la respuesta inicial del LLM y observamos un fenómeno interesante: los diálogos de múltiples turnos iniciados por alucinaciones exhiben universalmente mayores fluctuaciones de incertidumbre que los factuales en diferentes dominios. Basándonos en este fenómeno, proponemos una nueva puntuación SpikeScore, que cuantifica las fluctuaciones abruptas en los diálogos de varios turnos. A través del análisis teórico y la validación empírica, demostramos que SpikeScore logra una fuerte separabilidad entre dominios entre respuestas alucinadas y no alucinadas. Los experimentos en múltiples LLM y puntos de referencia demuestran que el método de detección basado en SpikeScore supera las líneas de base representativas en la generalización entre dominios y supera los métodos avanzados orientados a la generalización, verificando la efectividad de nuestro método en la detección de alucinaciones entre dominios.

Publicado originalmente en export.arxiv.org el 27 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web