Resumen: El fenotipado es fundamental para el diagnóstico de enfermedades raras, pero la curación manual de fenotipos estructurados a partir de notas clínicas requiere mucha mano de obra y es difícil de escalar. Los enfoques de inteligencia artificial existentes generalmente optimizan los componentes individuales de la fenotipificación, pero no ponen en funcionamiento el flujo de trabajo clínico completo de extraer características del texto clínico, estandarizarlas según términos de ontología de fenotipo humano (HPO) y priorizar términos de HPO con información diagnóstica. Desarrollamos RARE-PHENIX, un marco de IA de extremo a extremo para el fenotipado de enfermedades raras que integra extracción de fenotipos basada en modelos de lenguaje extenso, estandarización basada en ontologías para términos HPO y clasificación supervisada de fenotipos con información diagnóstica. Entrenamos a RARE-PHENIX utilizando datos de 2671 pacientes en 11 sitios clínicos de la Red de Enfermedades No Diagnósticas y lo validamos externamente en 16357 notas clínicas del mundo real del Centro Médico de la Universidad de Vanderbilt. Utilizando términos HPO seleccionados por médicos como estándar de oro, RARE-PHENIX superó consistentemente una línea base de aprendizaje profundo de última generación (PhenoBERT) en métricas de similitud basada en ontología y recuperación de precisión F1 en la evaluación de un extremo a otro (es decir, similitud basada en ontología de 0,70 frente a 0,58). Los análisis de ablación demostraron mejoras en el rendimiento con la adición de cada módulo en RARE-PHENIX (extracción, estandarización y priorización), respaldando el valor de modelar el flujo de trabajo completo de fenotipado clínico. Al modelar el fenotipado como un flujo de trabajo clínicamente alineado en lugar de una única tarea de extracción, RARE-PHENIX proporciona fenotipos estructurados y clasificados que son más concordantes con la curación médica y tiene el potencial de respaldar el diagnóstico humano de enfermedades raras en entornos del mundo real.
Publicado originalmente en export.arxiv.org el 24 de febrero de 2026.
Ver fuente original
