Resumen: Métodos: Analizamos 5.000 pares de informes de residentes-asistentes de la práctica habitual en un sistema de salud multisitio de EE. UU. A GPT-4o se le solicitaron instrucciones clínicas para identificar errores comunes y proporcionar comentarios. Se realizó un estudio de lectores utilizando 100 pares de informes. Cuatro radiólogos asistentes y cuatro residentes revisaron de forma independiente cada par, determinaron si estaban presentes tipos de errores predefinidos y calificaron la retroalimentación de GPT-4o como útil o no. La concordancia entre GPT y los lectores se evaluó mediante el porcentaje de coincidencia. La confiabilidad entre lectores se midió con el alfa de Krippendorff. El valor educativo se midió como la proporción de casos calificados como útiles.
Resultados: Se identificaron tres tipos de errores comunes: (1) omisión o adición de hallazgos clave, (2) uso incorrecto u omisión de descriptores técnicos y (3) evaluación final inconsistente con los hallazgos. GPT-4o mostró un fuerte acuerdo con el consenso asistente: 90,5 %, 78,3 % y 90,4 % en todos los tipos de error. La confiabilidad entre lectores mostró una variabilidad moderada ({alpha} = 0,767, 0,595, 0,567) y reemplazar a un lector humano con GPT-4o no afectó significativamente la concordancia ({Delta} = -0,004 a 0,002). Los comentarios de GPT se consideraron útiles en la mayoría de los casos: 89,8 %, 83,0 % y 92,0 %.
Discusión: ChatGPT-4o puede identificar de manera confiable errores educativos clave. Puede servir como una herramienta escalable para apoyar la educación en radiología.
Publicado originalmente en export.arxiv.org el 5 de noviembre de 2025.
Ver fuente original
