Resumen: Un diagnóstico diferencial preciso (DDX) es esencial para la atención al paciente, dar forma a las decisiones terapéuticas e influir en los resultados. Recientemente, los modelos de idiomas grandes (LLM) han surgido como herramientas prometedoras para apoyar este proceso mediante la generación de una lista DDX de las narrativas de los pacientes. Sin embargo, las evaluaciones existentes de LLM en este dominio dependen principalmente de métricas planas, como la precisión de Top-K, que no distinguen entre las malas casi relevantes y los errores diagnósticos distantes. Para mitigar esta limitación, presentamos H-DDX, un marco de evaluación jerárquico que refleja mejor la relevancia clínica. H-DDX aprovecha una tubería de recuperación y remolinos para asignar diagnósticos de texto libre a los códigos ICD-10 y aplica una métrica jerárquica que acredita las predicciones estrechamente relacionadas con el diagnóstico de verdad en el suelo. En la evaluación comparativa de los 22 modelos líderes, mostramos que las métricas planas convencionales subestiman el rendimiento al pasar por alto los resultados clínicamente significativos, con nuestros resultados destacando las fortalezas de los modelos de código abierto especializados en dominio. Además, nuestro marco mejora la interpretabilidad al revelar patrones de error jerárquicos, lo que demuestra que los LLM a menudo identifican correctamente el contexto clínico más amplio incluso cuando se pierde el diagnóstico preciso.
Publicado Originalme en export.arxiv.org El 6 de octubre de 2025.
Ver Fuente Original