En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Fiabilidad del razonamiento clínico generado por modelos de lenguaje grande en tecnología de reproducción asistida: estudio de evaluación comparativa ciega

Fiabilidad del razonamiento clínico generado por modelos de lenguaje grande en tecnología de reproducción asistida: estudio de evaluación comparativa ciega

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La creación de cadenas de pensamiento (CoT) clínicas de alta calidad es crucial para una inteligencia artificial (IA) médica explicable, aunque esté limitada por la escasez de datos. Aunque los modelos de lenguaje grande (LLM) pueden sintetizar datos médicos, su confiabilidad clínica aún no se ha verificado. Este estudio evalúa la confiabilidad de los CoT generados por LLM e investiga estrategias de estímulo para mejorar su calidad. En un estudio comparativo ciego, médicos experimentados en Tecnología de Reproducción Asistida (ART) evaluaron las CoT generadas a través de tres estrategias distintas: disparo cero, pocos disparos aleatorios (usando ejemplos poco profundos) y pocos disparos selectivos (usando ejemplos diversos y de alta calidad). Estas calificaciones de expertos se compararon con evaluaciones de un modelo de IA de última generación (GPT-4o). La estrategia Selective Few-shot superó significativamente a otras estrategias en todas las métricas de evaluación humana (p < 0,001). Fundamentalmente, la estrategia Random Few-shot no ofreció ninguna mejora significativa con respecto a la línea de base Zero-shot, lo que demuestra que los ejemplos de baja calidad son tan ineficaces como ningún ejemplo. El éxito de la estrategia Selectiva se atribuye a dos principios: "Gold-Standard Depth" (calidad de razonamiento) y "Diversidad Representativa" (generalización). En particular, el evaluador de IA no logró discernir estas diferencias críticas de desempeño. La confiabilidad clínica de los CoT sintéticos está dictada por una rápida curación estratégica, no por la mera presencia de ejemplos. Proponemos un marco de "Principios duales" como metodología fundamental para generar datos confiables a escala. Este trabajo ofrece una solución validada al cuello de botella de datos y confirma el papel indispensable de la experiencia humana en la evaluación de la IA clínica de alto riesgo.

Publicado originalmente en export.arxiv.org el 20 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web