Resumen: Este estudio evalúa el razonamiento causal en modelos de idiomas grandes (LLM) utilizando 99 escenarios de prueba de laboratorio clínicamente fundamentados alineados con la escalera de causalidad de Pearl: asociación, intervención y razonamiento contrafactual. Examinamos pruebas de laboratorio comunes como la hemoglobina A1C, la creatinina y la vitamina D, y las combinamos con factores causales relevantes que incluyen edad, género, obesidad y tabaquismo. Se probaron dos LLM, GPT-O1 y LLAMA-3.2-8B-Instructo, con respuestas evaluadas por cuatro expertos humanos médicamente entrenados. GPT-O1 demostró un rendimiento discriminativo más fuerte (AUROC en general = 0.80 +/- 0.12) en comparación con LLAMA-3.2-8B-INSTRUST (0.73 +/- 0.15), con puntajes más altos entre asociación (0.75 vs 0.72), intervención (0.84 vs 0.70) y razonamiento contactual (0.84 vs 0.69). La sensibilidad (0.90 vs 0.84) y la especificidad (0.93 vs 0.80) también fueron mayores para GPT-O1, con clasificaciones de razonamiento que muestran tendencias similares. Ambos modelos se desempeñaron mejor en preguntas de intervención y peor en contrafactuales, particularmente en escenarios de resultados alterados. Estos hallazgos sugieren que GPT-O1 proporciona un razonamiento causal más consistente, pero se requiere refinamiento antes de la adopción en aplicaciones clínicas de alto riesgo.
Publicado Originalme en export.arxiv.org El 22 de septiembre de 2025.
Ver Fuente Original
