Resumen: Los modelos de visión y lenguaje muestran un sólido rendimiento de disparo cero para la clasificación de radiografías de tórax, pero las métricas planas estándar no logran distinguir entre errores clínicamente menores y graves. Este trabajo investiga cómo cuantificar y mitigar los errores de abstracción aprovechando las taxonomías médicas. Comparamos varios VLM de última generación utilizando métricas jerárquicas e introducimos errores de abstracción catastróficos para capturar errores entre ramas. Nuestros resultados revelan una desalineación sustancial de los VLM con las taxonomías clínicas a pesar de un alto rendimiento uniforme. Para abordar esto, proponemos umbrales de riesgo restringido y ajustes precisos teniendo en cuenta la taxonomía con incrustaciones radiales, que reducen los errores de abstracción graves a menos del 2 por ciento mientras mantienen el rendimiento competitivo. Estos hallazgos resaltan la importancia de la evaluación jerárquica y la alineación a nivel de representación para una implementación más segura y clínicamente significativa de VLM.
Publicado originalmente en export.arxiv.org el 21 de enero de 2026.
Ver fuente original
