Resumen: Esta tesis investiga dos fenómenos clave en los modelos de lenguaje grande (LLM): el aprendizaje en contexto (ICL) y el colapso del modelo. Estudiamos ICL en un transformador lineal con pesos vinculados entrenados en tareas de regresión lineal y mostramos que minimizar la pérdida en contexto conduce a una transición de fase en los parámetros aprendidos. Por encima de una longitud de contexto crítica, la solución desarrolla un componente simétrico sesgado. Probamos esto reduciendo el paso directo del transformador lineal bajo peso vinculado al descenso de gradiente precondicionado y luego analizando el preacondicionador óptimo. Este preacondicionador incluye un componente simétrico sesgado, que induce una rotación de la dirección del gradiente. Para el colapso del modelo, utilizamos la teoría de martingala y paseo aleatorio para analizar configuraciones simplificadas (regresión lineal y ajuste gaussiano) bajo regímenes de datos acumulativos y de reemplazo. Fortalecemos los resultados existentes al demostrar una convergencia casi segura, mostrando que el colapso ocurre a menos que los datos crezcan lo suficientemente rápido o se retengan en el tiempo. Finalmente, introducimos la noción de colapso del contexto: una degradación del contexto durante largas generaciones, especialmente en el razonamiento en cadena de pensamientos. Este concepto vincula la dinámica de ICL con los desafíos de estabilidad a largo plazo en los modelos generativos.
Publicado originalmente en export.arxiv.org el 5 de enero de 2026.
Ver fuente original
