Medición y alineación de la abstracción en modelos de visión y lenguaje con taxonomías médicas

Resumen: Los modelos de visión y lenguaje muestran un sólido rendimiento de disparo cero para la clasificación de radiografías de tórax, pero las métricas planas estándar no logran distinguir entre errores clínicamente menores y graves. Este trabajo investiga cómo cuantificar y mitigar los errores de abstracción aprovechando las taxonomías médicas. Comparamos varios VLM de última generación utilizando métricas jerárquicas e introducimos errores de abstracción catastróficos para capturar errores entre ramas. Nuestros resultados revelan una desalineación sustancial de los VLM con las taxonomías clínicas a pesar de un alto rendimiento uniforme. Para abordar esto, proponemos umbrales de riesgo restringido y ajustes precisos teniendo en cuenta la taxonomía con incrustaciones radiales, que reducen los errores de abstracción graves a menos del 2 por ciento mientras mantienen el rendimiento competitivo. Estos hallazgos resaltan la importancia de la evaluación jerárquica y la alineación a nivel de representación para una implementación más segura y clínicamente significativa de VLM.

Publicado originalmente en export.arxiv.org el 21 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Títulos de trabajo del futuro: astrónomo satelital rayado

Resuelva el conflicto de la carretera en controles de vehículos multiautónomos con atención estatal local

La formación de personalidad psicométrica modula las capacidades y la seguridad en los modelos de idiomas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido