Resumen: La respuesta longitudinal de preguntas visuales médicas (DIFF-VQA) requiere comparar estudios emparejados desde diferentes puntos de tiempo y responder preguntas sobre cambios clínicamente significativos. En este entorno, la señal de diferencia y la consistencia del enfoque visual a lo largo del tiempo son más informativos que los hallazgos de imagen única absoluta. Proponemos un codificador codificador guiado por la saliencia para la diff-VQA de rayos X de tórax que convierte la prominencia post-hoc en supervisión procesable. El modelo primero realiza una prealineación afina casi ligera para reducir el movimiento molesto entre las visitas. Luego ejecuta un bucle de dos pasos dentro de Epoch: el paso 1 extrae una palabra clave médicamente relevante de la respuesta y genera cámara de graduación de palabras clave en ambas imágenes para obtener la prominencia centrada en la enfermedad; El paso 2 aplica la máscara de prominencia compartida a ambos puntos de tiempo y genera la respuesta final. Esto cierra el bucle de visión del lenguaje para que los términos que importen también guíen dónde se ve el modelo, llamando la atención espacialmente consistente en la anatomía correspondiente. En Medical-Diff-VQA, el enfoque alcanza el rendimiento competitivo en Bleu, Rouge-L, Sidra y Meteor, al tiempo que proporciona una interpretabilidad intrínseca. En particular, la columna vertebral y el decodificador están previos al dominio general sin prisión previa específica de radiología, destacando la practicidad y la transferibilidad. Estos resultados respaldan la generación condicionada por la prominencia con una leve prealineación como un marco de principios para el razonamiento longitudinal en VQA médico.
Publicado Originalme en export.arxiv.org El 30 de septiembre de 2025.
Ver Fuente Original
