En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Límites de capacidad en modelos de lenguaje autorregresivos: evidencia empírica de tareas intensivas en conocimiento

Límites de capacidad en modelos de lenguaje autorregresivos: evidencia empírica de tareas intensivas en conocimiento

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Documentamos límites de capacidad empíricos en modelos de lenguaje autorregresivos solo para decodificadores en tareas intensivas en conocimiento. La evaluación sistemática de las familias de modelos OPT y Pythia (parámetros 70M-30B, que abarcan una escala de 240 veces) revela que las tareas de recuperación de conocimientos muestran una mejora insignificante en la precisión a pesar de una reducción fluida de las pérdidas. En los puntos de referencia de matemáticas de MMLU, la precisión se mantiene estable en un 19-20 % (por debajo del 25 % de probabilidad aleatoria) en todas las escalas, mientras que la pérdida de entropía cruzada disminuye en un 31 %. Por el contrario, las tareas de procedimiento como la aritmética muestran una escala convencional donde ambas métricas mejoran juntas. Los experimentos de intervención de la atención revelan una alta sensibilidad a la perturbación: el intercambio de patrones de atención entre modelos provoca un colapso catastrófico del rendimiento (pérdida total de precisión) en lugar de una degradación elegante. Estas mediciones tienen implicaciones de ingeniería inmediatas: para aplicaciones con uso intensivo de conocimiento que utilizan arquitecturas OPT y Pythia, el escalado de parámetros más allá de 1-2B ofrece ganancias de precisión mínimas a pesar de la mejora continua de las pérdidas. Nuestros hallazgos cuantifican las fallas de escalamiento de capacidades específicas en estas familias de modelos para informar las decisiones de asignación de recursos. Si estos patrones reflejan limitaciones fundamentales de las arquitecturas de solo decodificador o limitaciones específicas de la implementación sigue siendo una pregunta abierta que requiere investigación a través de diversos enfoques arquitectónicos.

Publicado originalmente en export.arxiv.org el 27 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web