Personalización de LLM de código abierto para la extracción cuantitativa de atributos de medicamentos en sistemas EHR heterogéneos

Resumen: La armonización de los datos de medicación en los sistemas de Historia Clínica Electrónica (EHR) es una barrera persistente para el seguimiento de los medicamentos para el trastorno por consumo de opioides (MOUD). En sistemas EHR heterogéneos, los atributos clave de prescripción se encuentran dispersos en campos con formatos diferentes y notas de texto libre. Presentamos un marco práctico que personaliza modelos de lenguaje grande (LLM) de código abierto, incluidos Llama, Qwen, Gemma y MedGemma, para extraer un conjunto unificado de atributos de prescripción MOUD (fecha de prescripción, nombre del medicamento, duración, cantidad total, cantidad diaria y resurtidos) a partir de datos heterogéneos específicos del sitio y calcular una métrica estandarizada de cobertura de medicación, emph{días MOUD}, por paciente. Nuestro canal procesa registros directamente en un esquema JSON fijo, seguido de una normalización ligera y comprobaciones de coherencia entre campos. Evaluamos el sistema con datos de EHR a nivel de prescripción de cinco clínicas en un estudio nacional OUD (25{,}605 registros de 1{,}257 pacientes), utilizando un punto de referencia previamente anotado de 10{,}369 registros (776 pacientes) como base de datos. El rendimiento se informa como cobertura (porcentaje de registros con un resultado válido y coincidente) y precisión de coincidencia exacta a nivel de registro. Los modelos más grandes funcionan mejor en general: Qwen2.5-32B logra textbf{93.4%} cobertura con textbf{93.0%} precisión de coincidencia exacta en todas las clínicas, y MedGemma-27B logra textbf{93.1%}/textbf{92.2%}. Una breve revisión de errores destaca tres problemas comunes y soluciones: imputar campos de dosis faltantes usando normas dentro del medicamento, manejar inyectables mensuales/semanales (p. ej., Vivitrol) estableciendo la duración del programa documentado y agregar controles de unidades para evitar que las unidades de masa (p. ej., “250 g”) se lean erróneamente como recuentos diarios. Al eliminar el frágil ETL específico del sitio y admitir la implementación local que preserva la privacidad, este enfoque permite análisis consistentes entre sitios de la exposición, adherencia y retención de MOUD en entornos del mundo real.

Publicado originalmente en export.arxiv.org el 26 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

DIPLLM: LLM de ajuste fino para la toma de decisiones estratégicas en la diplomacia

Espacio de trabajo cognitivo: gestión de memoria activa para LLM: un estudio empírico del contexto infinito funcional

Aprender la funcionalidad API de las demostraciones para agentes basados ​​en herramientas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

Aprender la funcionalidad API de las demostraciones para agentes basados en herramientas