Refuerzo profundo Estrategia de control longitudinal basada en el aprendizaje para vehículos automatizados en intersecciones señalizadas

Resumen: El desarrollo de una estrategia de control de vehículos autónomos para las intersecciones señalizadas (SI) es una de las tareas desafiantes debido a su inherentemente complejo proceso de toma de decisiones. Este estudio propone una estrategia de control de vehículos longitudinales basados en el aprendizaje de refuerzo profundo (DRL) en SI. Se ha formulado una función de recompensa integral con un enfoque particular en (i) recompensa de eficiencia basada en el avance de distancia, (ii) criterios de toma de decisiones durante la luz ámbar y (iii) respuesta de aceleración/ desaceleración asimétrica, junto con los criterios tradicionales de seguridad y comodidad. Esta función de recompensa se ha incorporado con dos algoritmos DRL populares, el gradiente de política determinista profundo (DDPG) y el crítico de actores suaves (SAC), que pueden manejar el espacio de acción continuo de aceleración/desaceleración. Los modelos propuestos han sido entrenados en la combinación de trayectorias del vehículo líder del mundo real (LV) y trayectorias simuladas generadas utilizando el proceso Ornstein-Uhlenbeck (OU). El rendimiento general de los modelos propuestos se ha probado utilizando gráficos de función de distribución acumulativa (CDF) y comparado con los datos de trayectoria del mundo real. Los resultados muestran que los modelos RL mantienen con éxito una ventaja de menor distancia (es decir, mayor eficiencia) y un imbécil en comparación con los vehículos impulsados por los humanos sin comprometer la seguridad. Además, para evaluar la robustez de los modelos propuestos, evaluamos el rendimiento del modelo en diversos escenarios críticos de seguridad, en términos de seguimiento de automóviles y cumplimiento de la señal de tráfico. Los modelos DDPG y SAC manejaron con éxito los escenarios críticos, mientras que el modelo DDPG mostró perfiles de acción más suaves en comparación con el modelo SAC. En general, los resultados confirman que la estrategia de control de vehículos longitudinales basada en DRL en SI puede ayudar a mejorar la seguridad del tráfico, la eficiencia y la comodidad.

Publicado Originalme en rss.arxiv.org El 14 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Un algoritmo heurístico basado en la búsqueda del haz y la búsqueda local iterada del problema de enrutamiento de inventario marítimo

Cierre de base en evaluaciones de datos sintéticos de modelos de lenguaje en corpus de documentos no supervisados

José-Carlos Mariátegui: Beyond Project Cybersyn: Rastreando la influencia de los proyectos e ideas de cerveza de Stafford en América Latina

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido