Resumen: Presentamos una teoría de primeros principios que muestra que asimilar surge de una transición de fase representacional impulsada por normas en una dinámica de entrenamiento regularizada. El entrenamiento primero converge hacia una solución de memorización de norma alta y sólo más tarde se contrae hacia una representación estructurada de norma inferior que se generaliza.
Nuestro resultado principal establece una ley de escala para el retraso:
T_grok – T_mem = Theta((1 / gamma_eff) * log(||theta_mem||^2 / ||theta_post||^2)),
donde gamma_eff es la tasa de contracción efectiva del optimizador (gamma_eff = eta * lambda para SGD y gamma_eff >= eta * lambda para AdamW). El límite superior se deriva de un argumento de contracción discreto de Lyapunov, y el límite inferior correspondiente surge de restricciones dinámicas de optimización regularizada de primer orden.
A lo largo de 293 ejecuciones de entrenamiento que abarcan tareas de suma modular, multiplicación modular y paridad dispersa, confirmamos tres predicciones: escalamiento inverso con disminución de peso, escalamiento inverso con tasa de aprendizaje y dependencia logarítmica de la proporción de normas (R^2 > 0,97). Además, encontramos que asimilar requiere un optimizador que pueda desacoplar la memorización de la contracción: SGD falla bajo hiperparámetros donde AdamW asimila de manera confiable.
Estos resultados muestran que la asimilación es una consecuencia predecible de la separación de normas entre representaciones de interpolación en competencia y proporcionan la primera ley de escala cuantitativa para el retraso de la asimilación.
Publicado originalmente en export.arxiv.org el 16 de marzo de 2026.
Ver fuente original
