Resumen: con este fin, escalamos los mosaicos de memoria al tamaño de 10B, los capacitamos en un billón de tokens, presentamos un par de modificaciones arquitectónicas (“Mosaicos de memoria V2”), evaluamos sus capacidades en tres dimensiones de evaluación: almacenamiento de conocimientos de capacitación, almacenamiento de nuevo conocimiento y aprendizaje en el contexto.
A lo largo de la evaluación, los mosaicos de memoria V2 coinciden con los transformadores en el aprendizaje del conocimiento de la capacitación (primera dimensión) y supera significativamente a los transformadores para llevar a cabo nuevas tareas en el momento de la inferencia (segunda y tercera dimensiones). Estas mejoras no se pueden replicar fácilmente simplemente aumentando los datos de entrenamiento para los transformadores. Un mosaico de memoria V2 entrenado en un billón de tokens todavía funciona mejor en estas tareas que un transformador entrenado en ocho billones de tokens.

Publicado Originalme en export.arxiv.org El 7 de julio de 2025.
Ver Fuente Original

Mosaicos de memoria a escala

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Configuración y control de configuraciones de equipos de prueba complejos para la prueba y caracterización del dispositivo de silicio

ContraGen: un marco de generación de agentes múltiples para la detección de contradicciones empresariales

El derecho a ser recordado: preservar la memoria digital máximamente veraz en la era de la IA

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido