Más allá de la detección en el dominio: SpikeScore para la detección de alucinaciones entre dominios

Resumen: La detección de alucinaciones es fundamental para implementar modelos de lenguaje grandes (LLM) en aplicaciones del mundo real. Los métodos de detección de alucinaciones existentes logran un rendimiento sólido cuando los datos de entrenamiento y de prueba provienen del mismo dominio, pero adolecen de una generalización deficiente entre dominios. En este artículo, estudiamos un problema importante pero pasado por alto, denominado detección de alucinaciones generalizables (GHD), que tiene como objetivo entrenar detectores de alucinaciones con datos de un solo dominio y al mismo tiempo garantizar un rendimiento sólido en diversos dominios relacionados. Al estudiar GHD, simulamos diálogos de múltiples turnos después de la respuesta inicial del LLM y observamos un fenómeno interesante: los diálogos de múltiples turnos iniciados por alucinaciones exhiben universalmente mayores fluctuaciones de incertidumbre que los factuales en diferentes dominios. Basándonos en este fenómeno, proponemos una nueva puntuación SpikeScore, que cuantifica las fluctuaciones abruptas en los diálogos de varios turnos. A través del análisis teórico y la validación empírica, demostramos que SpikeScore logra una fuerte separabilidad entre dominios entre respuestas alucinadas y no alucinadas. Los experimentos en múltiples LLM y puntos de referencia demuestran que el método de detección basado en SpikeScore supera las líneas de base representativas en la generalización entre dominios y supera los métodos avanzados orientados a la generalización, verificando la efectividad de nuestro método en la detección de alucinaciones entre dominios.

Publicado originalmente en export.arxiv.org el 27 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Trism para AI de Agente: una revisión de la gestión de confianza, riesgo y seguridad en sistemas de agentes de agentes con sede en LLM

AutoTool: Escalado automático de capacidades de uso de herramientas en RL mediante restricciones de entropía desacopladas

De las narrativas al razonamiento probabilístico: predecir e interpretar las acciones peligrosas de los conductores en accidentes utilizando un modelo de lenguaje grande

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido