En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Colaboración múltiple guiada por mediador entre modelos de código abierto para la toma de decisiones médicas

Colaboración múltiple guiada por mediador entre modelos de código abierto para la toma de decisiones médicas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La toma de decisiones médicas complejas involucra flujos de trabajo cooperativos operados por diferentes médicos. El diseño de sistemas de AI múltiples agentes puede acelerar y aumentar la toma de decisiones clínicas a nivel humano. Las investigaciones existentes de múltiples agentes se centran principalmente en tareas solo en el lenguaje, sin embargo, su extensión a escenarios multimodales sigue siendo desafiante. Una combinación ciega de diversos modelos en idioma de visión (VLMS) puede amplificar una interpretación de resultados errónea. Los VLM en general son menos capaces en la instrucción siguiente y, lo que es más importante, autorreflexión, en comparación con los modelos de idiomas grandes (LLM) de tamaños comparables. Esta disparidad limita en gran medida la capacidad de VLMS en los flujos de trabajo cooperativos. En este estudio, proponemos Medorch, un marco de colaboración múltiple de agente múltiple guiado por un mediador para la toma de decisiones multimodales médicas. Medorch emplea a un agente mediador basado en LLM que permite que múltiples agentes expertos basados en VLM intercambien y reflexionen sobre sus resultados hacia la colaboración. Utilizamos múltiples VLM de uso general de código abierto y específicos de dominio en lugar de modelos costosos de la serie GPT, revelando la fuerza de los modelos heterogéneos. Mostramos que la colaboración dentro de distintos agentes basados en VLM puede superar las capacidades de cualquier agente individual. Validamos nuestro enfoque en cinco preguntas de visión médica que responde a los puntos de referencia, demostrando un rendimiento de colaboración superior sin capacitación modelo. Nuestros hallazgos subrayan el valor de la colaboración de agentes múltiples guiados por mediador en el avance de la inteligencia multimodal médica. Nuestro código estará disponible públicamente.

Publicado Originalme en export.arxiv.org El 10 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web