MHA-RAG: mejora de la eficiencia, la precisión y la coherencia mediante la codificación de ejemplos como indicaciones suaves

Resumen:La adaptación de Foundation Models a nuevos dominios con datos de entrenamiento limitados es desafiante y computacionalmente costosa. Si bien trabajos anteriores han demostrado la efectividad del uso de ejemplos de dominios específicos como demostraciones en contexto, investigamos si representar ejemplos puramente como texto es el enfoque más eficiente, efectivo y estable. Exploramos una alternativa: representar ejemplares como indicaciones suaves con una arquitectura de modelo de orden invariante ejemplar. Con este fin, presentamos la generación aumentada de recuperación de atención de múltiples cabezas (MHA-RAG), un marco en el que la cantidad de cabezas de atención sirve como un hiperparámetro simple para controlar la generación de mensajes suaves en diferentes tareas. A través de múltiples puntos de referencia de respuesta a preguntas y escalas de modelos, MHA-RAG logra una ganancia de rendimiento de 20 puntos sobre el RAG estándar, al tiempo que reduce los costos de inferencia en un factor de 10 veces los GFLOP, brindando mayor precisión y mayor eficiencia, invariable al orden ejemplar.

Publicado originalmente en export.arxiv.org el 7 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

¿Hemos llegado a un punto de inflexión de Junk?

El Laboratorio Social: un marco psicométrico para la evaluación LLM de múltiples agentes

Razonador de difusión guiada por restricciones para el aprendizaje neuro-simbólico

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido