Resumen: A pesar de la rápida expansión de los modelos de lenguaje grande (LLM) en la atención médica, la capacidad de estos sistemas para evaluar los informes de ensayos clínicos de acuerdo con los estándares CONSORT sigue sin estar clara, particularmente con respecto a sus estrategias cognitivas y de razonamiento. Este estudio aplica un enfoque analítico conductual y metacognitivo con datos validados por expertos, comparando sistemáticamente dos LLM representativos bajo tres condiciones rápidas. Surgieron diferencias claras en la forma en que los modelos abordaron varios elementos de CONSORT y los tipos de indicaciones, incluidos cambios en el estilo de razonamiento, incertidumbre explícita e interpretaciones alternativas, dieron forma a los patrones de respuesta. Nuestros resultados resaltan las limitaciones actuales de estos sistemas en la automatización del cumplimiento clínico y subrayan la importancia de comprender sus adaptaciones cognitivas y su comportamiento estratégico para desarrollar una IA médica más explicable y confiable.
Publicado originalmente en export.arxiv.org el 22 de octubre de 2025.
Ver fuente original
