Rigidez estructural y ventana predictiva de 57 tokens: un marco físico para la gobernabilidad de la capa de inferencia en modelos de lenguaje grandes

Resumen:Utilizando la tensión de trayectoria (rho = ||a|| / ||v||), identificamos una ventana de compromiso previo de 57 tokens en Phi-3-mini-4k-instruct bajo decodificación codiciosa en sondas de restricción aritmética. Este resultado es específico del modelo, de la tarea y de la configuración, lo que demuestra que las señales de compromiso previo pueden existir pero no son universales.

Leer más →

Comentarios desactivados en Rigidez estructural y ventana predictiva de 57 tokens: un marco físico para la gobernabilidad de la capa de inferencia en modelos de lenguaje grandes

Fin del contenido

No hay más páginas por cargar