Resumen: Los sistemas de inteligencia artificial de múltiples agentes se implementan cada vez más en entornos clínicos, sin embargo, la relación entre la optimización a nivel de componente y el rendimiento de todo el sistema sigue siendo poco conocida. Evaluamos esta relación utilizando 2.400 casos de pacientes reales del conjunto de datos MIMIC-CDM en cuatro patologías abdominales (apendicitis, pancreatitis, colecistitis, diverticulitis), descomponiendo el diagnóstico clínico en la recolección de información, la interpretación y el diagnóstico diferencial. Evaluamos los sistemas de un solo agente (un modelo que realiza todas las tareas) contra sistemas de múltiples agentes (modelos especializados para cada tarea) utilizando métricas integrales que abarcan resultados de diagnóstico, adherencia al proceso y eficiencia de costo. Nuestros resultados revelan una paradoja: si bien los sistemas de múltiples agentes generalmente superan a los agentes individuales, el sistema de raza optimizado o mejor optimizado de componentes con componentes superiores y excelentes métricas de proceso (85.5% de precisión de la información) significativamente bajo en la precisión diagnóstica (67.7% frente a 77.4% para un sistema multipente superior). Este hallazgo subraya que la integración exitosa de la IA en la atención médica requiere no solo la optimización del nivel de componentes, sino también la atención al flujo de información y la compatibilidad entre los agentes. Nuestros hallazgos resaltan la necesidad de validación del sistema de extremo a extremo en lugar de confiar solo en las métricas de componentes.
Publicado Originalme en rss.arxiv.org El 9 de junio de 2025.
Ver Fuente Original