QV puede ser suficiente: hacia la esencia de la atención en los LLM

Resumen: Partiendo de los primeros principios y una perspectiva lingüística centrada en la parte del discurso (POS) y el análisis sintáctico, este artículo explora y deriva la esencia subyacente del mecanismo Query-Key-Value (QKV) dentro de la arquitectura Transformer. Con base en esta base teórica, proporcionamos un marco explicativo unificado para la eficacia de las arquitecturas contemporáneas, incluidas MQA, GQA y MLA, al tiempo que identificamos sus compensaciones inherentes y posibles trayectorias de optimización. Introducimos el paradigma QV y proporcionamos evidencia empírica de su validez. Sobre la base de esto, proponemos el esquema de optimización QV-Ka, que se fundamenta aún más mediante la validación experimental. El análisis teórico interpretable del mecanismo QKV presentado en este trabajo establece una base sólida para la evolución futura de arquitecturas de modelos de lenguaje grandes.

Publicado originalmente en export.arxiv.org el 17 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

BuilderBench: un punto de referencia para agentes generalistas

Verificación de reglas extraídas en redes neuronales

Enfoques de asignación de uso de la tierra basados ​​en inteligencia computacional para áreas de uso mixto

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

Enfoques de asignación de uso de la tierra basados en inteligencia computacional para áreas de uso mixto