Un enfoque de múltiples agentes para el razonamiento clínico neurológico

Resumen: Los modelos de lenguaje grande (LLM) han demostrado ser prometedor en dominios médicos, pero su capacidad para manejar un razonamiento neurológico especializado requiere una evaluación sistemática. Desarrollamos un punto de referencia integral utilizando 305 preguntas de los exámenes de certificación de la Junta Israelí en neurología, clasificados a lo largo de tres dimensiones de complejidad: profundidad de conocimiento objetivo, integración de conceptos clínicos y complejidad de razonamiento. Evaluamos diez LLM utilizando modelos básicos, generación de recuperación de generación (RAG) y un nuevo sistema de múltiples agentes. Los resultados mostraron una variación de rendimiento significativa. OpenAI-O1 alcanzó el rendimiento base más alto (90.9% de precisión), mientras que los modelos médicos especializados funcionaron mal (52.9% para Meditron-70b). El trapo proporcionó beneficios modestos pero una efectividad limitada en las preguntas de razonamiento complejos. Por el contrario, nuestro marco de múltiples agentes, descomposición del razonamiento neurológico en funciones cognitivas especializadas que incluyen análisis de preguntas, recuperación de conocimiento, síntesis de respuestas y validación, lograron mejoras dramáticas, especialmente para los modelos de rango medio. El sistema de agente basado en LLAMA 3.3-70B alcanzó la precisión del 89.2% versus 69.5% para su modelo base, con ganancias sustanciales en las preguntas de complejidad de nivel 3. El enfoque de múltiples agentes transformó el rendimiento de subespecialidad inconsistente en excelencia uniforme, abordando los desafíos de razonamiento neurológico que persistieron con la mejora del trapo. Validamos nuestro enfoque utilizando un conjunto de datos independiente de 155 casos neurológicos de MEDQA. Los resultados confirman que los enfoques estructurados de múltiples agentes diseñados para emular procesos cognitivos especializados mejoran significativamente el razonamiento médico complejo, ofreciendo instrucciones prometedoras para la asistencia de IA en contextos clínicos desafiantes.

Publicado Originalme en export.arxiv.org El 20 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

MUA-RL: Aprendizaje de refuerzo de agentes de agente de usuario múltiple que interactúa para uso de la herramienta de agente

La descarga: relojes envejecidos y reparación de Internet

LUMINA: Comprensión a largo plazo para agentes interactivos de múltiples turnos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido