Rigidez estructural y ventana predictiva de 57 tokens: un marco físico para la gobernabilidad de la capa de inferencia en modelos de lenguaje grandes

Resumen:Utilizando la tensión de trayectoria (rho = ||a|| / ||v||), identificamos una ventana de compromiso previo de 57 tokens en Phi-3-mini-4k-instruct bajo decodificación codiciosa en sondas de restricción aritmética. Este resultado es específico del modelo, de la tarea y de la configuración, lo que demuestra que las señales de compromiso previo pueden existir pero no son universales.
Introducimos una taxonomía de cinco regímenes de comportamiento de inferencia: banda de autoridad, señal tardía, invertida, plana y selectiva de andamio. La asimetría energética ({Sigma}r{ho}_misaligned / {Sigma}r{ho}_aligned) sirve como una métrica unificadora de la rigidez estructural en todos estos regímenes.
En siete modelos, sólo una configuración muestra una señal predictiva antes del compromiso; todos los demás muestran fallas silenciosas, detección tardía, dinámica invertida o geometría plana.
Además, demostramos que la alucinación real no produce ninguna señal predictiva en 72 condiciones de prueba, lo que es consistente con un atractor espurio que se asienta en ausencia de una restricción de modelo mundial entrenado.
Estos resultados establecen que la violación de las reglas y las alucinaciones son modos de falla distintos con diferentes requisitos de detección. El monitoreo de la geometría interna es efectivo sólo donde existe resistencia; La detección de una confabulación fáctica requiere mecanismos de verificación externos.
Este trabajo proporciona un marco mensurable para la gobernabilidad de la capa de inferencia e introduce una taxonomía para evaluar el riesgo de implementación en sistemas autónomos de IA.

Publicado originalmente en export.arxiv.org el 6 de abril de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Optimización de políticas aprendibles desde la teoría de juegos para la racionalización de la autoexplicación centrada en datos

Razonamiento con una estrella: un conjunto de datos de heliofísica y un punto de referencia para el razonamiento científico agente

Dynamicare: un marco dinámico de múltiples agentes para la toma de decisiones médicas interactivas y abiertas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido