VERT: Jueces LLM confiables para la evaluación de informes de radiología

Resumen: La literatura actual sobre evaluación de informes radiológicos se ha centrado principalmente en diseñar métricas basadas en LLM y ajustar pequeños modelos para radiografías de tórax. Sin embargo, aún no está claro si estos enfoques son sólidos cuando se aplican a informes de otras modalidades y anatomías. ¿Qué modelo y configuraciones de indicaciones son las más adecuadas para actuar como jueces de LLM para la evaluación radiológica? Realizamos un análisis de correlación exhaustivo entre las calificaciones de expertos y las basadas en LLM. Comparamos tres métricas existentes de LLM como juez (RadFact, GREEN y FineRadScore) junto con VERT, nuestra métrica basada en LLM propuesta, utilizando modelos de código abierto y cerrado (razonamiento y no razonamiento) de diferentes tamaños en dos conjuntos de datos anotados por expertos, RadEval y RaTE-Eval, que abarcan múltiples modalidades y anatomías. Evaluamos aún más los enfoques de pocas tomas, el ensamblaje y el ajuste fino eficiente de los parámetros utilizando RaTE-Eval. Para comprender mejor el comportamiento de las métricas, realizamos un estudio sistemático de detección y categorización de errores para evaluar la alineación de estas métricas con los juicios de expertos e identificar áreas de menor y mayor acuerdo. Nuestros resultados muestran que VERT mejora la correlación con los juicios de los radiólogos hasta en un 11,7% en relación con GREEN. Además, el ajuste fino del Qwen3 30B produce ganancias de hasta un 25 % utilizando solo 1300 muestras de entrenamiento. El modelo ajustado también reduce el tiempo de inferencia hasta 37,2 veces. Estos hallazgos resaltan la efectividad de los jueces basados en LLM y demuestran que se puede lograr una evaluación confiable con una adaptación ligera.

Publicado originalmente en export.arxiv.org el 6 de abril de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Inteligencia implícita: evaluación de agentes sobre lo que los usuarios no dicen

Stefania Milán: Breve de política: “Ver la sostenibilidad de manera diferente: nuevas métricas y gobernanza de datos éticos para una transición justa”

Bancos de pruebas de conectividad inteligente utilizados por los DIH

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido