Resumen:El aprendizaje multimodal (MM) está emergiendo como un paradigma prometedor en aplicaciones de inteligencia artificial (IA) biomédica, integrando modalidades complementarias, que resaltan diferentes aspectos de la salud del paciente. La escasez de datos de MM biomédicos grandes y heterogéneos ha restringido el desarrollo de modelos sólidos para aplicaciones médicas de IA. En el ámbito de la dermatología, por ejemplo, los conjuntos de datos sobre lesiones cutáneas suelen incluir solo imágenes vinculadas a metadatos mínimos que describen la afección, lo que limita los beneficios de la integración de datos MM para realizar predicciones confiables y generalizables. Los avances recientes en modelos de lenguaje grande (LLM) permiten la síntesis de descripciones textuales de hallazgos de imágenes, lo que potencialmente permite la combinación de representaciones de imágenes y texto. Sin embargo, los LLM no están capacitados específicamente para su uso en el ámbito médico, y su inclusión ingenua ha generado preocupación sobre el riesgo de alucinaciones en contextos clínicamente relevantes. Este trabajo investiga estrategias para generar notas clínicas textuales sintéticas, en términos de diseño rápido e inclusión de metadatos médicos, y evalúa su impacto en las arquitecturas MM para mejorar el rendimiento en tareas de clasificación y recuperación intermodal. Los experimentos realizados en varios conjuntos de datos dermatológicos heterogéneos demuestran que las notas clínicas sintéticas no solo mejoran el rendimiento de la clasificación, particularmente bajo el cambio de dominio, sino que también desbloquean capacidades de recuperación intermodal, una tarea posterior que no se optimiza explícitamente durante el entrenamiento.
Publicado originalmente en export.arxiv.org el 30 de noviembre de 2025.
Ver fuente original
