Evaluación del razonamiento causal para modelos de lenguaje grandes en escenarios clínicos contextualizados de interpretación de pruebas de laboratorio

Resumen: Este estudio evalúa el razonamiento causal en modelos de idiomas grandes (LLM) utilizando 99 escenarios de prueba de laboratorio clínicamente fundamentados alineados con la escalera de causalidad de Pearl: asociación, intervención y razonamiento contrafactual. Examinamos pruebas de laboratorio comunes como la hemoglobina A1C, la creatinina y la vitamina D, y las combinamos con factores causales relevantes que incluyen edad, género, obesidad y tabaquismo. Se probaron dos LLM, GPT-O1 y LLAMA-3.2-8B-Instructo, con respuestas evaluadas por cuatro expertos humanos médicamente entrenados. GPT-O1 demostró un rendimiento discriminativo más fuerte (AUROC en general = 0.80 +/- 0.12) en comparación con LLAMA-3.2-8B-INSTRUST (0.73 +/- 0.15), con puntajes más altos entre asociación (0.75 vs 0.72), intervención (0.84 vs 0.70) y razonamiento contactual (0.84 vs 0.69). La sensibilidad (0.90 vs 0.84) y la especificidad (0.93 vs 0.80) también fueron mayores para GPT-O1, con clasificaciones de razonamiento que muestran tendencias similares. Ambos modelos se desempeñaron mejor en preguntas de intervención y peor en contrafactuales, particularmente en escenarios de resultados alterados. Estos hallazgos sugieren que GPT-O1 proporciona un razonamiento causal más consistente, pero se requiere refinamiento antes de la adopción en aplicaciones clínicas de alto riesgo.

Publicado Originalme en export.arxiv.org El 22 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

ResearStudio: un marco intervenible por humanos para crear agentes de investigación profunda controlables

Maersk y Onomondo implementan la Red Global Sea IoT

IEEE Collabratec alcanza los 100,000 miembros de los miembros

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido