En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Pinchar la brecha en la IA oftálmica: MM-Retinal-REAUNTERSET y Modelo de OphthareRasion hacia el razonamiento multimodal dinámico

Pinchar la brecha en la IA oftálmica: MM-Retinal-REAUNTERSET y Modelo de OphthareRasion hacia el razonamiento multimodal dinámico

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: los modelos de lenguaje grande multimodal (MLLMS) han demostrado recientemente habilidades de razonamiento notables con paradigma de aprendizaje de refuerzo. Aunque se han explorado varios modelos de razonamiento multimodal en el dominio médico, la mayoría de ellos se centran exclusivamente en el razonamiento básico, que se refiere a una inferencia superficial basada en la coincidencia de características visuales. Sin embargo, el diagnóstico clínico del mundo real se extiende más allá del razonamiento básico, exigiendo procesos de razonamiento que integran información clínica heterogénea (como quejas principales e historial médico) con datos de imágenes médicas multimodales. Para cerrar esta brecha, introducimos MM-Retinal-Razon, el primer conjunto de datos multimodal oftálmico con el espectro completo de percepción y razonamiento. Abarca tanto tareas básicas de razonamiento como tareas de razonamiento complejas, con el objetivo de mejorar las capacidades de razonamiento fundamental centrada en la visual y emular patrones de pensamiento clínico realistas. Sobre la base de MM-Retinal-Razon, proponemos Ophtharason, el primer modelo de razonamiento multimodal específico de oftalmología con trazas de razonamiento paso a paso. Para habilitar la adaptación flexible a las tareas de razonamiento básicas y complejas, diseñamos específicamente un método novedoso llamado Incertidumbre Conocer el Pensamiento Dinámico (UADT), que estima la incertidumbre a nivel de muestra a través de la entropía y modula dinámicamente la profundidad de exploración del modelo utilizando un mecanismo de ventaja con forma. Experimentos exhaustivos demuestran que nuestro modelo logra un rendimiento de última generación en tareas de razonamiento básicas y complejas, superan a MLLMS de propósito general, MLLM de Medical, MLLM basados ​​en RL y MLLM oftalmic por al menos 24.92 %, 15.00 %, 21.20 %y 17.66 %. Página del proyecto: href {esta URL HTTPS}{enlace}.

Publicado Originalme en export.arxiv.org El 24 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web