AgentsEval: Evaluación clínicamente fiel de informes de imágenes médicas mediante razonamiento de múltiples agentes

Resumen: La evaluación de la corrección clínica y la fidelidad del razonamiento de los informes de imágenes médicas generados automáticamente sigue siendo un desafío crítico aún sin resolver. Los métodos de evaluación existentes a menudo no logran capturar la lógica diagnóstica estructurada que subyace a la interpretación radiológica, lo que genera juicios poco confiables y una relevancia clínica limitada. Presentamos AgentsEval, un marco de razonamiento de flujo de múltiples agentes que emula el flujo de trabajo de diagnóstico colaborativo de los radiólogos. Al dividir el proceso de evaluación en pasos interpretables que incluyen la definición de criterios, la extracción de evidencia, la alineación y la puntuación de coherencia, AgentsEval proporciona rastros de razonamiento explícitos y comentarios clínicos estructurados. También construimos un punto de referencia multidominio basado en perturbaciones que cubre cinco conjuntos de datos de informes médicos con diversas modalidades de imágenes y variaciones semánticas controladas. Los resultados experimentales demuestran que AgentsEval ofrece evaluaciones clínicamente alineadas, semánticamente fieles e interpretables que permanecen sólidas ante perturbaciones parafrásticas, semánticas y estilísticas. Este marco representa un paso hacia una evaluación transparente y clínicamente fundamentada de los sistemas de generación de informes médicos, fomentando una integración confiable de grandes modelos de lenguaje en la práctica clínica.

Publicado originalmente en export.arxiv.org el 25 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Sesión de información en línea – Premio Europeo para Innovadores de Mujeres 2026

Chispas de racionalidad: ¿Los LLM de razonamiento se alinean con el juicio y la elección humanos?

Mapas que hablan: el potencial de la cartografía social

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido