Por qué funciona la autorrecompensa: garantías teóricas para la alineación iterativa de modelos lingüísticos
Resumen: Los modelos de lenguaje autogratificantes (SRLM) logran un éxito notable al mejorar la alineación de forma iterativa sin retroalimentación externa. Sin embargo, a pesar de su sorprendente progreso empírico, los mecanismos centrales que impulsan sus capacidades siguen sin dilucidarse, lo que deja una brecha crítica en la comprensión teórica.
Leer más →