En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Aprendizaje por refuerzo profundo interpretable para la optimización del ciclo de vida del puente a nivel de elemento

Aprendizaje por refuerzo profundo interpretable para la optimización del ciclo de vida del puente a nivel de elemento

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Las nuevas Especificaciones para el Inventario Nacional de Puentes (SNBI), vigentes a partir de 2022, enfatizan el uso de estados de condición (CS) a nivel de elemento para la gestión de puentes basada en riesgos. En lugar de una clasificación general de los componentes, los datos de condición a nivel de elemento utilizan una matriz de cantidades CS relativas (es decir, proporciones CS) para representar la condición de un puente. Aunque esto aumenta en gran medida la granularidad de los datos sobre la condición del puente, presenta desafíos para establecer políticas óptimas de ciclo de vida debido al espacio de estados ampliado de un único entero categórico a matrices de probabilidad de cuatro dimensiones. Este estudio propone un nuevo enfoque de aprendizaje por refuerzo (RL) interpretable para buscar políticas óptimas de ciclo de vida basadas en representaciones de estado a nivel de elemento. En comparación con los métodos RL existentes, el algoritmo propuesto produce políticas de ciclo de vida en forma de árboles de decisión oblicuos con cantidades razonables de nodos y profundidad, lo que los hace directamente comprensibles y auditables por humanos y fácilmente implementables en los sistemas actuales de gestión de puentes. Para lograr políticas casi óptimas, el enfoque propuesto introduce tres mejoras importantes a los métodos RL existentes: (a) el uso de modelos de árboles blandos diferenciables como aproximadores de funciones de actores, (b) un proceso de recocido de temperatura durante el entrenamiento y (c) regularización combinada con reglas de poda para limitar la complejidad de las políticas. En conjunto, estas mejoras pueden generar políticas de ciclo de vida interpretables en forma de árboles de decisión oblicuos deterministas. Los beneficios y compensaciones de estas técnicas se demuestran tanto en entornos de aprendizaje supervisado como de refuerzo. El marco resultante se ilustra en un problema de optimización del ciclo de vida de puentes de vigas de acero.

Publicado originalmente en export.arxiv.org el 5 de abril de 2026.
Ver fuente original

admin

Usuario de administración del sitio web