En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Una taxonomía geométrica de alucinaciones en LLM

Una taxonomía geométrica de alucinaciones en LLM

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El término “alucinación” en modelos de lenguaje grandes combina fenómenos distintos con diferentes firmas geométricas en el espacio de incrustación. Proponemos una taxonomía que identifica tres tipos: infidelidad (falta de interacción con el contexto proporcionado), confabulación (invención de contenido semánticamente extraño) y error fáctico (afirmaciones incorrectas dentro de marcos conceptuales correctos). Observamos una sorprendente asimetría. En los puntos de referencia estándar donde las alucinaciones se generan mediante LLM, la detección es local del dominio: AUROC 0,76-0,99 dentro de los dominios, pero 0,50 (nivel de probabilidad) entre los dominios. Las direcciones discriminativas son aproximadamente ortogonales entre dominios (similitud media del coseno -0,07). En las confabulaciones creadas por el hombre (instituciones inventadas, terminología redefinida, mecanismos fabricados), una única dirección global logra 0,96 AUROC con un 3,8% de degradación entre dominios. Interpretamos esta divergencia de la siguiente manera: los puntos de referencia capturan artefactos generacionales (firmas estilísticas de una fabricación inducida), mientras que las confabulaciones creadas por humanos capturan una genuina deriva tópica. La estructura geométrica difiere porque los fenómenos subyacentes difieren. Los errores de tipo III muestran 0,478 AUROC, indistinguibles del azar. Esto refleja una restricción teórica: las incrustaciones codifican la coocurrencia distributiva, no la correspondencia con la realidad externa. Las declaraciones con patrones contextuales idénticos ocupan regiones de incrustación similares independientemente del valor de verdad. La contribución es una taxonomía geométrica que aclara el alcance de la detección basada en incrustación: los tipos I y II son detectables; El tipo III requiere mecanismos de verificación externos.

Publicado originalmente en export.arxiv.org el 16 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web