Fiabilidad del razonamiento clínico generado por modelos de lenguaje grande en tecnología de reproducción asistida: estudio de evaluación comparativa ciega

Resumen: La creación de cadenas de pensamiento (CoT) clínicas de alta calidad es crucial para una inteligencia artificial (IA) médica explicable, aunque esté limitada por la escasez de datos. Aunque los modelos de lenguaje grande (LLM) pueden sintetizar datos médicos, su confiabilidad clínica aún no se ha verificado. Este estudio evalúa la confiabilidad de los CoT generados por LLM e investiga estrategias de estímulo para mejorar su calidad. En un estudio comparativo ciego, médicos experimentados en Tecnología de Reproducción Asistida (ART) evaluaron las CoT generadas a través de tres estrategias distintas: disparo cero, pocos disparos aleatorios (usando ejemplos poco profundos) y pocos disparos selectivos (usando ejemplos diversos y de alta calidad). Estas calificaciones de expertos se compararon con evaluaciones de un modelo de IA de última generación (GPT-4o). La estrategia Selective Few-shot superó significativamente a otras estrategias en todas las métricas de evaluación humana (p < 0,001). Fundamentalmente, la estrategia Random Few-shot no ofreció ninguna mejora significativa con respecto a la línea de base Zero-shot, lo que demuestra que los ejemplos de baja calidad son tan ineficaces como ningún ejemplo. El éxito de la estrategia Selectiva se atribuye a dos principios: "Gold-Standard Depth" (calidad de razonamiento) y "Diversidad Representativa" (generalización). En particular, el evaluador de IA no logró discernir estas diferencias críticas de desempeño. La confiabilidad clínica de los CoT sintéticos está dictada por una rápida curación estratégica, no por la mera presencia de ejemplos. Proponemos un marco de "Principios duales" como metodología fundamental para generar datos confiables a escala. Este trabajo ofrece una solución validada al cuello de botella de datos y confirma el papel indispensable de la experiencia humana en la evaluación de la IA clínica de alto riesgo.

Publicado originalmente en export.arxiv.org el 20 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Cómo asegurar dispositivos médicos

Optimización de políticas aprendibles desde la teoría de juegos para la racionalización de la autoexplicación centrada en datos

¿Qué viene después para las demandas por derechos de autor de IA?

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido