Colaboración múltiple guiada por mediador entre modelos de código abierto para la toma de decisiones médicas

Resumen: La toma de decisiones médicas complejas involucra flujos de trabajo cooperativos operados por diferentes médicos. El diseño de sistemas de AI múltiples agentes puede acelerar y aumentar la toma de decisiones clínicas a nivel humano. Las investigaciones existentes de múltiples agentes se centran principalmente en tareas solo en el lenguaje, sin embargo, su extensión a escenarios multimodales sigue siendo desafiante. Una combinación ciega de diversos modelos en idioma de visión (VLMS) puede amplificar una interpretación de resultados errónea. Los VLM en general son menos capaces en la instrucción siguiente y, lo que es más importante, autorreflexión, en comparación con los modelos de idiomas grandes (LLM) de tamaños comparables. Esta disparidad limita en gran medida la capacidad de VLMS en los flujos de trabajo cooperativos. En este estudio, proponemos Medorch, un marco de colaboración múltiple de agente múltiple guiado por un mediador para la toma de decisiones multimodales médicas. Medorch emplea a un agente mediador basado en LLM que permite que múltiples agentes expertos basados en VLM intercambien y reflexionen sobre sus resultados hacia la colaboración. Utilizamos múltiples VLM de uso general de código abierto y específicos de dominio en lugar de modelos costosos de la serie GPT, revelando la fuerza de los modelos heterogéneos. Mostramos que la colaboración dentro de distintos agentes basados en VLM puede superar las capacidades de cualquier agente individual. Validamos nuestro enfoque en cinco preguntas de visión médica que responde a los puntos de referencia, demostrando un rendimiento de colaboración superior sin capacitación modelo. Nuestros hallazgos subrayan el valor de la colaboración de agentes múltiples guiados por mediador en el avance de la inteligencia multimodal médica. Nuestro código estará disponible públicamente.

Publicado Originalme en export.arxiv.org El 10 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Monitoreo en línea basado en gráficos de los estados de conductor de trenes a través de características faciales y esqueléticas

Thor: Optimización jerárquica integrada en herramientas a través de RL para el razonamiento matemático

Hacia una comprensión más profunda de las capacidades de razonamiento en modelos de idiomas grandes

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido