Resumen: El apoyo a la decisión clínica debe adaptarse en línea bajo restricciones de seguridad. Presentamos una herramienta adaptativa en línea donde el aprendizaje de refuerzo proporciona la política, un gemelo digital del paciente proporciona el medio ambiente y el efecto del tratamiento define la recompensa. El sistema inicializa una política limitada por lotes de los datos retrospectivos y luego ejecuta un bucle de transmisión que selecciona acciones, verifica la seguridad y consulta a los expertos solo cuando la incertidumbre es alta. La incertidumbre proviene de un conjunto compacto de cinco N-Networks a través del coeficiente de variación de valores de acción con una compresión $ tanh $. El gemelo digital actualiza el estado del paciente con una regla residual limitada. El modelo de resultado estima el efecto clínico inmediato, y la recompensa es el efecto del tratamiento en relación con una referencia conservadora con una normalización fija de puntaje Z de la división de entrenamiento. Las actualizaciones en línea funcionan en datos recientes con ejecuciones cortas y promedios móviles exponenciales. Una puerta de seguridad basada en reglas aplica rangos vitales y contraindicaciones antes de aplicar cualquier acción. Los experimentos en un simulador clínico sintético muestran baja latencia, rendimiento estable, una baja tasa de consulta de expertos con seguridad fija y un rendimiento mejorado contra las líneas de base estándar basadas en el valor. El diseño convierte una política fuera de línea en un sistema continuo y supervisado por clínicos con controles claros y una adaptación rápida.
Publicado Originalme en export.arxiv.org El 25 de agosto de 2025.
Ver Fuente Original