Límites de capacidad en modelos de lenguaje autorregresivos: evidencia empírica de tareas intensivas en conocimiento

Resumen: Documentamos límites de capacidad empíricos en modelos de lenguaje autorregresivos solo para decodificadores en tareas intensivas en conocimiento. La evaluación sistemática de las familias de modelos OPT y Pythia (parámetros 70M-30B, que abarcan una escala de 240 veces) revela que las tareas de recuperación de conocimientos muestran una mejora insignificante en la precisión a pesar de una reducción fluida de las pérdidas. En los puntos de referencia de matemáticas de MMLU, la precisión se mantiene estable en un 19-20 % (por debajo del 25 % de probabilidad aleatoria) en todas las escalas, mientras que la pérdida de entropía cruzada disminuye en un 31 %. Por el contrario, las tareas de procedimiento como la aritmética muestran una escala convencional donde ambas métricas mejoran juntas. Los experimentos de intervención de la atención revelan una alta sensibilidad a la perturbación: el intercambio de patrones de atención entre modelos provoca un colapso catastrófico del rendimiento (pérdida total de precisión) en lugar de una degradación elegante. Estas mediciones tienen implicaciones de ingeniería inmediatas: para aplicaciones con uso intensivo de conocimiento que utilizan arquitecturas OPT y Pythia, el escalado de parámetros más allá de 1-2B ofrece ganancias de precisión mínimas a pesar de la mejora continua de las pérdidas. Nuestros hallazgos cuantifican las fallas de escalamiento de capacidades específicas en estas familias de modelos para informar las decisiones de asignación de recursos. Si estos patrones reflejan limitaciones fundamentales de las arquitecturas de solo decodificador o limitaciones específicas de la implementación sigue siendo una pregunta abierta que requiere investigación a través de diversos enfoques arquitectónicos.

Publicado originalmente en export.arxiv.org el 27 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Prueba de estrés Alineación deliberativa para el entrenamiento anti-scheming

L2M-AID: Defensa ciberfísica autónoma mediante la fusión del razonamiento semántico de modelos de lenguaje grandes con aprendizaje por refuerzo de múltiples agentes (preimpresión)

Consolidación del aprendizaje de refuerzo para modelos de difusión discretos multimodales

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido