Resumen: La evaluación de la corrección clínica y la fidelidad del razonamiento de los informes de imágenes médicas generados automáticamente sigue siendo un desafío crítico aún sin resolver. Los métodos de evaluación existentes a menudo no logran capturar la lógica diagnóstica estructurada que subyace a la interpretación radiológica, lo que genera juicios poco confiables y una relevancia clínica limitada. Presentamos AgentsEval, un marco de razonamiento de flujo de múltiples agentes que emula el flujo de trabajo de diagnóstico colaborativo de los radiólogos. Al dividir el proceso de evaluación en pasos interpretables que incluyen la definición de criterios, la extracción de evidencia, la alineación y la puntuación de coherencia, AgentsEval proporciona rastros de razonamiento explícitos y comentarios clínicos estructurados. También construimos un punto de referencia multidominio basado en perturbaciones que cubre cinco conjuntos de datos de informes médicos con diversas modalidades de imágenes y variaciones semánticas controladas. Los resultados experimentales demuestran que AgentsEval ofrece evaluaciones clínicamente alineadas, semánticamente fieles e interpretables que permanecen sólidas ante perturbaciones parafrásticas, semánticas y estilísticas. Este marco representa un paso hacia una evaluación transparente y clínicamente fundamentada de los sistemas de generación de informes médicos, fomentando una integración confiable de grandes modelos de lenguaje en la práctica clínica.
Publicado originalmente en export.arxiv.org el 25 de enero de 2026.
Ver fuente original
