Pinchar la brecha en la IA oftálmica: MM-Retinal-REAUNTERSET y Modelo de OphthareRasion hacia el razonamiento multimodal dinámico

Resumen: los modelos de lenguaje grande multimodal (MLLMS) han demostrado recientemente habilidades de razonamiento notables con paradigma de aprendizaje de refuerzo. Aunque se han explorado varios modelos de razonamiento multimodal en el dominio médico, la mayoría de ellos se centran exclusivamente en el razonamiento básico, que se refiere a una inferencia superficial basada en la coincidencia de características visuales. Sin embargo, el diagnóstico clínico del mundo real se extiende más allá del razonamiento básico, exigiendo procesos de razonamiento que integran información clínica heterogénea (como quejas principales e historial médico) con datos de imágenes médicas multimodales. Para cerrar esta brecha, introducimos MM-Retinal-Razon, el primer conjunto de datos multimodal oftálmico con el espectro completo de percepción y razonamiento. Abarca tanto tareas básicas de razonamiento como tareas de razonamiento complejas, con el objetivo de mejorar las capacidades de razonamiento fundamental centrada en la visual y emular patrones de pensamiento clínico realistas. Sobre la base de MM-Retinal-Razon, proponemos Ophtharason, el primer modelo de razonamiento multimodal específico de oftalmología con trazas de razonamiento paso a paso. Para habilitar la adaptación flexible a las tareas de razonamiento básicas y complejas, diseñamos específicamente un método novedoso llamado Incertidumbre Conocer el Pensamiento Dinámico (UADT), que estima la incertidumbre a nivel de muestra a través de la entropía y modula dinámicamente la profundidad de exploración del modelo utilizando un mecanismo de ventaja con forma. Experimentos exhaustivos demuestran que nuestro modelo logra un rendimiento de última generación en tareas de razonamiento básicas y complejas, superan a MLLMS de propósito general, MLLM de Medical, MLLM basados en RL y MLLM oftalmic por al menos 24.92 %, 15.00 %, 21.20 %y 17.66 %. Página del proyecto: href {esta URL HTTPS}{enlace}.

Publicado Originalme en export.arxiv.org El 24 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Q-ARDNS-MULTI: un marco de aprendizaje de refuerzo cuántico de múltiples agentes con adaptación meta-cognitiva para entornos 3D complejos

Avance de la ciencia cognitiva con LLM

Sondeo de invariancia guiado por el lenguaje de modelos de visión-lenguaje

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido