Resumen: La literatura actual sobre evaluación de informes radiológicos se ha centrado principalmente en diseñar métricas basadas en LLM y ajustar pequeños modelos para radiografías de tórax. Sin embargo, aún no está claro si estos enfoques son sólidos cuando se aplican a informes de otras modalidades y anatomías. ¿Qué modelo y configuraciones de indicaciones son las más adecuadas para actuar como jueces de LLM para la evaluación radiológica? Realizamos un análisis de correlación exhaustivo entre las calificaciones de expertos y las basadas en LLM. Comparamos tres métricas existentes de LLM como juez (RadFact, GREEN y FineRadScore) junto con VERT, nuestra métrica basada en LLM propuesta, utilizando modelos de código abierto y cerrado (razonamiento y no razonamiento) de diferentes tamaños en dos conjuntos de datos anotados por expertos, RadEval y RaTE-Eval, que abarcan múltiples modalidades y anatomías. Evaluamos aún más los enfoques de pocas tomas, el ensamblaje y el ajuste fino eficiente de los parámetros utilizando RaTE-Eval. Para comprender mejor el comportamiento de las métricas, realizamos un estudio sistemático de detección y categorización de errores para evaluar la alineación de estas métricas con los juicios de expertos e identificar áreas de menor y mayor acuerdo. Nuestros resultados muestran que VERT mejora la correlación con los juicios de los radiólogos hasta en un 11,7% en relación con GREEN. Además, el ajuste fino del Qwen3 30B produce ganancias de hasta un 25 % utilizando solo 1300 muestras de entrenamiento. El modelo ajustado también reduce el tiempo de inferencia hasta 37,2 veces. Estos hallazgos resaltan la efectividad de los jueces basados en LLM y demuestran que se puede lograr una evaluación confiable con una adaptación ligera.
Publicado originalmente en export.arxiv.org el 6 de abril de 2026.
Ver fuente original
