Razonamiento de subespecialidad basado en evidencia: evaluación de una capa de inteligencia clínica seleccionada en el examen estilo junta de endocrinología de 2025

Resumen:Antecedentes: Los modelos de lenguaje grandes han demostrado un sólido desempeño en exámenes médicos generales, pero el razonamiento clínico de subespecialidades sigue siendo un desafío debido a las pautas que evolucionan rápidamente y a las jerarquías de evidencia matizadas. Métodos: Evaluamos January Mirror, un sistema de razonamiento clínico basado en evidencia, frente a LLM de frontera (GPT-5, GPT-5.2, Gemini-3-Pro) en un examen estilo junta de endocrinología de 120 preguntas. Mirror integra un corpus de evidencia curado de endocrinología y cardiometabólica con una arquitectura de razonamiento estructurado para generar resultados vinculados a la evidencia. Espejo operado bajo una restricción de evidencia cerrada sin recuperación externa. Los LLM de comparación tenían acceso web en tiempo real a pautas y literatura primaria. Resultados: Mirror logró una precisión del 87,5 % (105/120; IC del 95 %: 80,4-92,3 %), superando una referencia humana del 62,3 % y LLM de frontera que incluyen GPT-5.2 (74,6 %), GPT-5 (74,0 %) y Gemini-3-Pro (69,8 %). En las 30 preguntas más difíciles (precisión humana inferior al 50%), Mirror logró una precisión del 76,7%. La precisión de los 2 primeros fue del 92,5% para Mirror frente al 85,25% para GPT-5.2. Conclusiones: Mirror proporcionó trazabilidad de la evidencia: el 74,2% de los resultados citaron al menos una fuente de nivel de guía, con una precisión de citación del 100% en la verificación manual. La evidencia curada con procedencia explícita puede superar la recuperación web sin restricciones para el razonamiento clínico de subespecialidades y respalda la auditabilidad para la implementación clínica.

Publicado originalmente en export.arxiv.org el 18 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Mejora de la cadena de pensamiento para el razonamiento lógico mediante una intervención consciente de la atención

Cuantificación de la skofancia como desviaciones de la racionalidad bayesiana en LLMS

Satisfiabilidad booleana a través del aprendizaje de imitación

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido