Atención Control de atención basado en esquemas (ASAC): un enfoque de inspiración cognitiva para la gestión de la atención en Transformers

Resumen: Los mecanismos de atención se han vuelto integrales en la IA, mejorando significativamente el rendimiento del modelo y la escalabilidad al inspirarme en la cognición humana. Al mismo tiempo, la teoría del esquema de atención (AST) en la ciencia cognitiva postula que los individuos manejan su atención creando un modelo de atención en sí, asignando efectivamente los recursos cognitivos. Inspirados en AST, presentamos ASAC (control de atención basado en el esquema de atención), que integra el concepto de esquema de atención en redes neuronales artificiales. Nuestros experimentos iniciales se centraron en incorporar el módulo ASAC dentro de las arquitecturas de transformadores. Este módulo emplea un autoencoder variacional (VQVAE) con vector (VQVAE) como un abstracto de atención y un controlador, facilitando la gestión de atención precisa. Al modelar explícitamente la asignación de atención, nuestro enfoque tiene como objetivo mejorar la eficiencia del sistema. Demostramos la efectividad de ASAC tanto en los dominios de visión como en PNL, destacando su capacidad para mejorar la precisión de la clasificación y acelerar el proceso de aprendizaje. Nuestros experimentos con transformadores de visión en varios conjuntos de datos ilustran que el controlador de atención no solo aumenta la precisión de la clasificación sino que también acelera el aprendizaje. Además, hemos demostrado las capacidades de robustez y generalización del modelo en conjuntos de datos ruidosos y desactualizados. Además, hemos mostrado un rendimiento mejorado en la configuración de varias tareas. Los experimentos rápidos revelan que el módulo basado en el esquema de atención mejora la resistencia a los ataques adversos, optimiza la atención para mejorar la eficiencia del aprendizaje y facilita el aprendizaje de transferencia efectivo y el aprendizaje de menos ejemplos. Estos resultados prometedores establecen una conexión entre la ciencia cognitiva y el aprendizaje automático, arrojando luz sobre la utilización eficiente de los mecanismos de atención en los sistemas de IA.

Publicado Originalme en export.arxiv.org El 21 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Refinar el principio de racionalidad de Gelfond hacia principios fundamentales más completos para la semántica de establecimiento de respuestas

Adaptación de dominio de modelos de lenguaje grande para aplicaciones geotécnicas

Mosaicos de memoria a escala

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido