Resumen:Recientemente, los modelos grandes han mostrado un potencial significativo para la atención médica inteligente. Sin embargo, la implementación de modelos de visión y lenguaje de gran tamaño (LVLM) para servicios clínicos se ve obstaculizada actualmente por tres desafíos críticos: una tendencia a alucinar respuestas no basadas en evidencia visual, la ineficiencia del razonamiento de profundidad fija y la dificultad de la colaboración multiinstitucional. Para abordar estos desafíos, en este artículo desarrollamos MedAlign, un marco novedoso para garantizar respuestas LVLM visualmente precisas para la respuesta visual a preguntas médicas (Med-VQA). Específicamente, primero proponemos un objetivo multimodal de optimización de preferencias directas (mDPO) para alinear explícitamente el aprendizaje de preferencias con el contexto visual. Luego diseñamos una arquitectura de mezcla de expertos con reconocimiento de recuperación (RA-MoE) que utiliza similitudes de imágenes y texto para enrutar consultas a un LVLM especializado y con contexto aumentado (es decir, un experto), mitigando así las alucinaciones en los LVLM. Para lograr un razonamiento adaptativo y facilitar la colaboración multiinstitucional, proponemos un mecanismo de gobernanza federado, donde el experto seleccionado, ajustado en conjuntos de datos clínicos basados en mDPO, realiza localmente un razonamiento iterativo de cadena de pensamiento (CoT) a través del estimador de incertidumbre metacognitivo local. Amplios experimentos en tres conjuntos de datos representativos de Med-VQA demuestran que MedAlign logra un rendimiento de última generación, superando sólidas líneas de base de recuperación aumentada en hasta $11,85%$ en puntuación F1 y, simultáneamente, reduciendo la duración promedio del razonamiento en $51,60%$ en comparación con los enfoques CoT de profundidad fija.
Publicado originalmente en export.arxiv.org el 26 de octubre de 2025.
Ver fuente original
