En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->VERT: Jueces LLM confiables para la evaluación de informes de radiología

VERT: Jueces LLM confiables para la evaluación de informes de radiología

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La literatura actual sobre evaluación de informes radiológicos se ha centrado principalmente en diseñar métricas basadas en LLM y ajustar pequeños modelos para radiografías de tórax. Sin embargo, aún no está claro si estos enfoques son sólidos cuando se aplican a informes de otras modalidades y anatomías. ¿Qué modelo y configuraciones de indicaciones son las más adecuadas para actuar como jueces de LLM para la evaluación radiológica? Realizamos un análisis de correlación exhaustivo entre las calificaciones de expertos y las basadas en LLM. Comparamos tres métricas existentes de LLM como juez (RadFact, GREEN y FineRadScore) junto con VERT, nuestra métrica basada en LLM propuesta, utilizando modelos de código abierto y cerrado (razonamiento y no razonamiento) de diferentes tamaños en dos conjuntos de datos anotados por expertos, RadEval y RaTE-Eval, que abarcan múltiples modalidades y anatomías. Evaluamos aún más los enfoques de pocas tomas, el ensamblaje y el ajuste fino eficiente de los parámetros utilizando RaTE-Eval. Para comprender mejor el comportamiento de las métricas, realizamos un estudio sistemático de detección y categorización de errores para evaluar la alineación de estas métricas con los juicios de expertos e identificar áreas de menor y mayor acuerdo. Nuestros resultados muestran que VERT mejora la correlación con los juicios de los radiólogos hasta en un 11,7% en relación con GREEN. Además, el ajuste fino del Qwen3 30B produce ganancias de hasta un 25 % utilizando solo 1300 muestras de entrenamiento. El modelo ajustado también reduce el tiempo de inferencia hasta 37,2 veces. Estos hallazgos resaltan la efectividad de los jueces basados ​​en LLM y demuestran que se puede lograr una evaluación confiable con una adaptación ligera.

Publicado originalmente en export.arxiv.org el 6 de abril de 2026.
Ver fuente original

admin

Usuario de administración del sitio web