Resumen:La adaptación de Foundation Models a nuevos dominios con datos de entrenamiento limitados es desafiante y computacionalmente costosa. Si bien trabajos anteriores han demostrado la efectividad del uso de ejemplos de dominios específicos como demostraciones en contexto, investigamos si representar ejemplos puramente como texto es el enfoque más eficiente, efectivo y estable. Exploramos una alternativa: representar ejemplares como indicaciones suaves con una arquitectura de modelo de orden invariante ejemplar. Con este fin, presentamos la generación aumentada de recuperación de atención de múltiples cabezas (MHA-RAG), un marco en el que la cantidad de cabezas de atención sirve como un hiperparámetro simple para controlar la generación de mensajes suaves en diferentes tareas. A través de múltiples puntos de referencia de respuesta a preguntas y escalas de modelos, MHA-RAG logra una ganancia de rendimiento de 20 puntos sobre el RAG estándar, al tiempo que reduce los costos de inferencia en un factor de 10 veces los GFLOP, brindando mayor precisión y mayor eficiencia, invariable al orden ejemplar.
Publicado originalmente en export.arxiv.org el 7 de octubre de 2025.
Ver fuente original