En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Razonamiento de subespecialidad basado en evidencia: evaluación de una capa de inteligencia clínica seleccionada en el examen estilo junta de endocrinología de 2025

Razonamiento de subespecialidad basado en evidencia: evaluación de una capa de inteligencia clínica seleccionada en el examen estilo junta de endocrinología de 2025

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Antecedentes: Los modelos de lenguaje grandes han demostrado un sólido desempeño en exámenes médicos generales, pero el razonamiento clínico de subespecialidades sigue siendo un desafío debido a las pautas que evolucionan rápidamente y a las jerarquías de evidencia matizadas. Métodos: Evaluamos January Mirror, un sistema de razonamiento clínico basado en evidencia, frente a LLM de frontera (GPT-5, GPT-5.2, Gemini-3-Pro) en un examen estilo junta de endocrinología de 120 preguntas. Mirror integra un corpus de evidencia curado de endocrinología y cardiometabólica con una arquitectura de razonamiento estructurado para generar resultados vinculados a la evidencia. Espejo operado bajo una restricción de evidencia cerrada sin recuperación externa. Los LLM de comparación tenían acceso web en tiempo real a pautas y literatura primaria. Resultados: Mirror logró una precisión del 87,5 % (105/120; IC del 95 %: 80,4-92,3 %), superando una referencia humana del 62,3 % y LLM de frontera que incluyen GPT-5.2 (74,6 %), GPT-5 (74,0 %) y Gemini-3-Pro (69,8 %). En las 30 preguntas más difíciles (precisión humana inferior al 50%), Mirror logró una precisión del 76,7%. La precisión de los 2 primeros fue del 92,5% para Mirror frente al 85,25% para GPT-5.2. Conclusiones: Mirror proporcionó trazabilidad de la evidencia: el 74,2% de los resultados citaron al menos una fuente de nivel de guía, con una precisión de citación del 100% en la verificación manual. La evidencia curada con procedencia explícita puede superar la recuperación web sin restricciones para el razonamiento clínico de subespecialidades y respalda la auditabilidad para la implementación clínica.

Publicado originalmente en export.arxiv.org el 18 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web