Por qué Grokking lleva tanto tiempo: una teoría de primeros principios de las transiciones de fase representacional

Resumen: Presentamos una teoría de primeros principios que muestra que asimilar surge de una transición de fase representacional impulsada por normas en una dinámica de entrenamiento regularizada. El entrenamiento primero converge hacia una solución de memorización de norma alta y sólo más tarde se contrae hacia una representación estructurada de norma inferior que se generaliza.
Nuestro resultado principal establece una ley de escala para el retraso:
T_grok – T_mem = Theta((1 / gamma_eff) * log(||theta_mem||^2 / ||theta_post||^2)),
donde gamma_eff es la tasa de contracción efectiva del optimizador (gamma_eff = eta * lambda para SGD y gamma_eff >= eta * lambda para AdamW). El límite superior se deriva de un argumento de contracción discreto de Lyapunov, y el límite inferior correspondiente surge de restricciones dinámicas de optimización regularizada de primer orden.
A lo largo de 293 ejecuciones de entrenamiento que abarcan tareas de suma modular, multiplicación modular y paridad dispersa, confirmamos tres predicciones: escalamiento inverso con disminución de peso, escalamiento inverso con tasa de aprendizaje y dependencia logarítmica de la proporción de normas (R^2 > 0,97). Además, encontramos que asimilar requiere un optimizador que pueda desacoplar la memorización de la contracción: SGD falla bajo hiperparámetros donde AdamW asimila de manera confiable.
Estos resultados muestran que la asimilación es una consecuencia predecible de la separación de normas entre representaciones de interpolación en competencia y proporcionan la primera ley de escala cuantitativa para el retraso de la asimilación.

Publicado originalmente en export.arxiv.org el 16 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Mapeo de radio ciego mediante inferencia de trayectoria bayesiana espacialmente regularizada

Uniendo el razonamiento con el aprendizaje: desenmascarando ilusiones utilizando la complejidad fuera de la generalización de la distribución

Restricciones de ruptura de simetría más rápidas para estructuras abstractas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido