Resumen: con este fin, escalamos los mosaicos de memoria al tamaño de 10B, los capacitamos en un billón de tokens, presentamos un par de modificaciones arquitectónicas (“Mosaicos de memoria V2”), evaluamos sus capacidades en tres dimensiones de evaluación: almacenamiento de conocimientos de capacitación, almacenamiento de nuevo conocimiento y aprendizaje en el contexto.
A lo largo de la evaluación, los mosaicos de memoria V2 coinciden con los transformadores en el aprendizaje del conocimiento de la capacitación (primera dimensión) y supera significativamente a los transformadores para llevar a cabo nuevas tareas en el momento de la inferencia (segunda y tercera dimensiones). Estas mejoras no se pueden replicar fácilmente simplemente aumentando los datos de entrenamiento para los transformadores. Un mosaico de memoria V2 entrenado en un billón de tokens todavía funciona mejor en estas tareas que un transformador entrenado en ocho billones de tokens.
Publicado Originalme en export.arxiv.org El 7 de julio de 2025.
Ver Fuente Original