Resumen: Los modelos de lenguaje autogratificantes (SRLM) logran un éxito notable al mejorar la alineación de forma iterativa sin retroalimentación externa. Sin embargo, a pesar de su sorprendente progreso empírico, los mecanismos centrales que impulsan sus capacidades siguen sin dilucidarse, lo que deja una brecha crítica en la comprensión teórica. Este artículo proporciona las primeras garantías teóricas rigurosas para los SRLM. Primero establecemos un límite inferior que caracteriza los límites fundamentales de un solo paso de actualización, revelando una dependencia crítica de la calidad del modelo inicial. Luego derivamos límites de error de muestra finita para el paradigma iterativo completo, mostrando que el rendimiento mejora a una tasa de $widetilde{mathcal{O}}left(1/sqrt{n}right)$ con un tamaño de muestra $n$. Fundamentalmente, nuestro análisis revela que la dependencia del modelo inicial decae exponencialmente con el número de iteraciones $T$. Esto proporciona una explicación formal de por qué la autogratificación tiene éxito: supera con firmeza una mala inicialización dirigiendo la dinámica hacia la estabilidad y la coherencia internas. Finalmente, instanciamos nuestro marco teórico para la clase de modelo lineal softmax, generando garantías personalizadas que conectan nuestros conocimientos de alto nivel con arquitecturas de modelos prácticas.
Publicado originalmente en export.arxiv.org el 1 de febrero de 2026.
Ver fuente original
