Resumen: Los modelos de lenguaje grande multimodal (MLLM) demuestran un potencial significativo en el campo del diagnóstico médico. Sin embargo, enfrentan desafíos críticos en dominios especializados como la oftalmología, particularmente la fragmentación de la granularidad de la anotación e inconsistencias en la lógica de razonamiento clínico, que obstaculizan la comprensión intermodal precisa. Este documento presenta FundusExpert, un MLLM específico de oftalmología con capacidades de razonamiento de diagnóstico de posicionamiento integrado, junto con Fundusgen, un conjunto de datos construido a través del sistema inteligente de motor de fondo. El motor de fondo automatiza la localización y aprovecha la expansión semántica basada en MLLM para integrar la clasificación global de enfermedades, la detección de objetos locales y el análisis de características de grano fino dentro de una sola imagen de fondo de fondo. Además, al construir una cadena cognitiva clínicamente alineada, guía el modelo para generar rutas de razonamiento interpretables. Fundusexpert, ajustado con datos de instrucciones de Fundusgen, logra el mejor rendimiento en las tareas oftálmicas de respuesta-respuesta, superando la precisión promedio del 40B Medrega en un 26,6%. También se destaca en tareas de generación de informes de disparo cero, logrando una consistencia clínica del 77.0%, superando significativamente el 47.6%de GPT-4O. Además, revelamos una ley de escala entre la calidad de los datos y la capacidad del modelo ($ l propto n^{0.068} $), lo que demuestra que las anotaciones de alineación cognitiva en el fondo mejoran la eficiencia de utilización de datos. Al integrar la localización a nivel de región con cadenas de razonamiento de diagnóstico, nuestro trabajo desarrolla un MLLM escalable y clínicamente alineado y explora una vía hacia el puente de la brecha en el lenguaje visual en MLLM específicos. Nuestro proyecto se puede encontrar en esta URL HTTPS.
Publicado Originalme en export.arxiv.org El 23 de julio de 2025.
Ver Fuente Original