Resumen: La conversación Human-AI frecuentemente se basa en citar texto anterior: “Compruebe con la fórmula que acabo de resaltar” -Yet Los modelos de lenguaje grande (LLMS) de hoy carecen de un mecanismo explícito para localizar y explotar tales tramos. Formalizamos el desafío como generación acondicionada, descompositando cada convertido en el historial de diálogo, un conjunto de cotizaciones de desplazamiento de tokens y una expresión de intención. Sobre la base de esta abstracción, presentamos una tubería de datos centrada en la cotización que sintetiza automáticamente los diálogos específicos de la tarea, verifica la corrección de respuestas a través de controles de consistencia en varias etapas y produce un corpus de entrenamiento heterogéneo y el primer referencia que cubre cinco escenarios representativos. Para cumplir con los requisitos de eficiencia de parámetros y de parámetros de referencia, proponemos que Quada, un método liviano basado en el entrenamiento que une dos proyecciones de cuellos de botella a cada cabeza de atención, amplificando o suprimiendo dinámicamente la atención a los tramos citados en un tiempo de inferencia mientras deja el indicador sin cambios y actualizaciones <2.8% de los pesos de la columna trasera. Los experimentos en todos los modelos muestran que Quada es adecuado para todos los escenarios y generalizados a temas invisibles, ofreciendo una solución efectiva de plug-and-play para el diálogo consciente de la cita.
Publicado Originalme en rss.arxiv.org El 1 de junio de 2025.
Ver Fuente Original