Resumen:Utilizando la tensión de trayectoria (rho = ||a|| / ||v||), identificamos una ventana de compromiso previo de 57 tokens en Phi-3-mini-4k-instruct bajo decodificación codiciosa en sondas de restricción aritmética. Este resultado es específico del modelo, de la tarea y de la configuración, lo que demuestra que las señales de compromiso previo pueden existir pero no son universales.
Introducimos una taxonomía de cinco regímenes de comportamiento de inferencia: banda de autoridad, señal tardía, invertida, plana y selectiva de andamio. La asimetría energética ({Sigma}r{ho}_misaligned / {Sigma}r{ho}_aligned) sirve como una métrica unificadora de la rigidez estructural en todos estos regímenes.
En siete modelos, sólo una configuración muestra una señal predictiva antes del compromiso; todos los demás muestran fallas silenciosas, detección tardía, dinámica invertida o geometría plana.
Además, demostramos que la alucinación real no produce ninguna señal predictiva en 72 condiciones de prueba, lo que es consistente con un atractor espurio que se asienta en ausencia de una restricción de modelo mundial entrenado.
Estos resultados establecen que la violación de las reglas y las alucinaciones son modos de falla distintos con diferentes requisitos de detección. El monitoreo de la geometría interna es efectivo sólo donde existe resistencia; La detección de una confabulación fáctica requiere mecanismos de verificación externos.
Este trabajo proporciona un marco mensurable para la gobernabilidad de la capa de inferencia e introduce una taxonomía para evaluar el riesgo de implementación en sistemas autónomos de IA.
Publicado originalmente en export.arxiv.org el 6 de abril de 2026.
Ver fuente original
