Resumen: Métodos: Diez dermatólogos, una IA generalista (GPT-4O) y una IA de razonamiento (O3) generaron planes de tratamiento para cinco casos de dermatología complejos. Los diez expertos humanos anónimos en dos fases obtuvieron puntajes en dos fases: 1) por los diez expertos humanos, y 2) por un juez de IA superior (Gemini 2.5 Pro) utilizando una rúbrica idéntica.
Resultados: se observó un profundo ‘efecto evaluador’. Los expertos humanos obtuvieron planes generados por pares significativamente más altos que los planes AI (media 7.62 vs. 7.16; p = 0.0313), clasificación GPT-4O 6 ° (media 7.38) y el modelo de razonamiento, O3, 11º (media 6.97). Por el contrario, el juez de IA produjo una inversión completa, anotando planes de IA significativamente más altos que los planes humanos (media 7.75 vs. 6.79; p = 0.0313). Clasificó O3 1er (media 8.20) y GPT-4O 2nd, colocando a todos los expertos humanos más bajos.
Conclusiones: la calidad percibida de un plan clínico depende fundamentalmente de la naturaleza del evaluador. Una IA de razonamiento avanzada, clasificada mal por expertos humanos, fue juzgado como superior por una IA sofisticada, revelando una brecha profunda entre la heurística clínica basada en la experiencia y la lógica algorítmica basada en datos. Esta paradoja presenta un desafío crítico para la integración de la IA, lo que sugiere que el futuro requiere sistemas sinérgicos y explicables de Human-AI que cierran esta brecha de razonamiento para aumentar la atención clínica.
Publicado Originalme en export.arxiv.org El 8 de julio de 2025.
Ver Fuente Original