En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Personalización de LLM de código abierto para la extracción cuantitativa de atributos de medicamentos en sistemas EHR heterogéneos

Personalización de LLM de código abierto para la extracción cuantitativa de atributos de medicamentos en sistemas EHR heterogéneos

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La armonización de los datos de medicación en los sistemas de Historia Clínica Electrónica (EHR) es una barrera persistente para el seguimiento de los medicamentos para el trastorno por consumo de opioides (MOUD). En sistemas EHR heterogéneos, los atributos clave de prescripción se encuentran dispersos en campos con formatos diferentes y notas de texto libre. Presentamos un marco práctico que personaliza modelos de lenguaje grande (LLM) de código abierto, incluidos Llama, Qwen, Gemma y MedGemma, para extraer un conjunto unificado de atributos de prescripción MOUD (fecha de prescripción, nombre del medicamento, duración, cantidad total, cantidad diaria y resurtidos) a partir de datos heterogéneos específicos del sitio y calcular una métrica estandarizada de cobertura de medicación, emph{días MOUD}, por paciente. Nuestro canal procesa registros directamente en un esquema JSON fijo, seguido de una normalización ligera y comprobaciones de coherencia entre campos. Evaluamos el sistema con datos de EHR a nivel de prescripción de cinco clínicas en un estudio nacional OUD (25{,}605 registros de 1{,}257 pacientes), utilizando un punto de referencia previamente anotado de 10{,}369 registros (776 pacientes) como base de datos. El rendimiento se informa como cobertura (porcentaje de registros con un resultado válido y coincidente) y precisión de coincidencia exacta a nivel de registro. Los modelos más grandes funcionan mejor en general: Qwen2.5-32B logra textbf{93.4%} cobertura con textbf{93.0%} precisión de coincidencia exacta en todas las clínicas, y MedGemma-27B logra textbf{93.1%}/textbf{92.2%}. Una breve revisión de errores destaca tres problemas comunes y soluciones: imputar campos de dosis faltantes usando normas dentro del medicamento, manejar inyectables mensuales/semanales (p. ej., Vivitrol) estableciendo la duración del programa documentado y agregar controles de unidades para evitar que las unidades de masa (p. ej., “250 g”) se lean erróneamente como recuentos diarios. Al eliminar el frágil ETL específico del sitio y admitir la implementación local que preserva la privacidad, este enfoque permite análisis consistentes entre sitios de la exposición, adherencia y retención de MOUD en entornos del mundo real.

Publicado originalmente en export.arxiv.org el 26 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web