Entrenamiento previo sólido de modelos médicos de visión y lenguaje con reconstrucción enmascarada multimodal invariante de dominio

Resumen: Los modelos médicos de visión y lenguaje muestran un gran potencial para el razonamiento conjunto sobre imágenes médicas y textos clínicos, pero su rendimiento a menudo se degrada ante el cambio de dominio causado por variaciones en los dispositivos de imágenes, los protocolos de adquisición y los estilos de presentación de informes. Los métodos de preentrenamiento multimodal existentes pasan por alto en gran medida la robustez y la tratan como un problema de adaptación posterior. En este trabajo, proponemos una reconstrucción enmascarada multimodal robusta (Robust-MMR), un marco de preentrenamiento autosupervisado que incorpora explícitamente objetivos de solidez en el aprendizaje de visión y lenguaje enmascarado. Robust-MMR integra enmascaramiento asimétrico consciente de perturbaciones, regularización de consistencia de dominio y restricciones de resiliencia de modalidad para fomentar representaciones invariantes de dominio. Evaluamos Robust-MMR en múltiples puntos de referencia médicos de visión y lenguaje, incluida la respuesta visual a preguntas médicas (VQA-RAD, SLAKE, VQA-2019), la clasificación de imágenes y texto entre dominios (MELINDA) y la recuperación sólida de subtítulos de imágenes (ROCO). Robust-MMR logra una precisión entre dominios del 78,9 % en VQA-RAD, superando la línea de base más sólida en 3,8 puntos porcentuales, y alcanza una precisión del 74,6 % y 77,0 % en SLAKE y VQA-2019, respectivamente. En evaluación perturbada, Robust-MMR mejora la precisión de VQA-RAD del 69,1 % al 75,6 %. Para la clasificación de imágenes y texto, la precisión de MELINDA entre dominios aumenta del 70,3% al 75,2%, mientras que los experimentos de recuperación muestran una reducción en la degradación del rango medio de más de 16 a 4,1 bajo perturbación. Los resultados cualitativos demuestran además un razonamiento clínico mejorado para la detección de enfermedades y la evaluación de anomalías estructurales. Estos hallazgos muestran que modelar explícitamente la solidez durante el entrenamiento previo conduce a representaciones médicas de visión y lenguaje más confiables y transferibles para su implementación en el mundo real.

Publicado originalmente en export.arxiv.org el 22 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Bolso con pasaporte

Mármol: un punto de referencia difícil para el razonamiento espacial multimodal y la planificación

Desbloqueo de agilidad empresarial en la economía API

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido