Resumen: La segunda edición del desafío Mediqa-Magic 2025 ImageClef, coorganizado por investigadores de Microsoft, la Universidad de Stanford y la Clínica del Hospital de Barcelona, se centra en la respuesta y la segmentación de las preguntas de dermatología multimodal, utilizando consecuencia e imágenes de pacientes del mundo real. Este trabajo aborda la tarea de respuesta de preguntas visuales cerradas (CVQA), donde el objetivo es seleccionar la respuesta correcta a las preguntas clínicas de opción múltiple basadas en imágenes enviadas por el usuario y descripciones de síntomas adjuntas. The proposed approach combines three core components: (1) fine-tuning open-source multimodal models from the Qwen, Gemma, and LLaMA families on the competition dataset, (2) introducing a structured reasoning layer that reconciles and adjudicates between candidate model outputs, and (3) incorporating agentic retrieval-augmented generation (agentic RAG), which adds relevant information from the American Academy of Dermatology’s Síntoma y base de datos de condición para llenar los vacíos en el contexto del paciente. El equipo alcanzó el segundo lugar con una sumisión que obtuvo el sexto lugar, demostrando un rendimiento competitivo y una alta precisión. Más allá de los puntos de referencia competitivos, esta investigación aborda un desafío práctico en la telemedicina: las decisiones de diagnóstico a menudo deben hacerse de forma asincrónica, con aportes limitados y con alta precisión e interpretabilidad. Al emular los patrones de razonamiento sistemáticos empleados por los dermatólogos al evaluar las condiciones de la piel, esta arquitectura proporcionó una vía hacia sistemas de soporte de diagnóstico automatizado más confiables.
Publicado Originalme en export.arxiv.org El 8 de julio de 2025.
Ver Fuente Original