Resumen: El apoyo a la decisión clínica debe adaptarse en línea bajo restricciones de seguridad. Presentamos una herramienta adaptativa en línea donde el aprendizaje de refuerzo proporciona la política, un gemelo digital del paciente proporciona el medio ambiente y el efecto del tratamiento define la recompensa. El sistema inicializa una política limitada por lotes de los datos retrospectivos y luego ejecuta un bucle de transmisión que selecciona acciones, verifica la seguridad y consulta a los expertos solo cuando la incertidumbre es alta. La incertidumbre proviene de un conjunto compacto de cinco N-Networks a través del coeficiente de variación de valores de acción con una compresión $ tanh $. El gemelo digital actualiza el estado del paciente con una regla residual limitada. El modelo de resultado estima el efecto clínico inmediato, y la recompensa es el efecto del tratamiento en relación con una referencia conservadora con una normalización fija de puntaje Z de la división de entrenamiento. Las actualizaciones en línea funcionan en datos recientes con ejecuciones cortas y promedios móviles exponenciales. Una puerta de seguridad basada en reglas aplica rangos vitales y contraindicaciones antes de aplicar cualquier acción. Los experimentos en un simulador clínico sintético muestran baja latencia, rendimiento estable, una baja tasa de consulta de expertos con seguridad fija y un rendimiento mejorado contra las líneas de base estándar basadas en el valor. El diseño convierte una política fuera de línea en un sistema continuo y supervisado por clínicos con controles claros y una adaptación rápida.

Publicado Originalme en export.arxiv.org El 25 de agosto de 2025.
Ver Fuente Original

Reforzamiento Aprendizaje Mejoró el soporte de decisiones clínicas adaptativas en línea a través de políticas gemelas digitales y efecto del tratamiento Recompensa optimizada

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Cómo las teorías de la conspiración se infiltraron en el consultorio del médico

Modelos preforgetables: el aprendizaje rápido como mecanismo nativo para desaprender

Soy un relator en Davos: investigación, innovación y talentos impulsados ​​por la IA | “Donde la innovación se encuentra con el propósito social y personal”

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

Soy un relator en Davos: investigación, innovación y talentos impulsados por la IA | “Donde la innovación se encuentra con el propósito social y personal”