Resumen:Varios estudios han empleado el aprendizaje por refuerzo (RL) para abordar los desafíos del control regional adaptativo de señales de tráfico (ATSC) y han logrado resultados prometedores. En este campo, la investigación existente adopta predominantemente marcos de múltiples agentes. Sin embargo, la adopción de marcos multiagente presenta desafíos para la escalabilidad. En cambio, el problema del control de señales de tráfico (TSC) necesita un marco de agente único. TSC depende inherentemente de la gestión centralizada por parte de un único centro de control, que puede monitorear las condiciones del tráfico en todas las carreteras en el área de estudio y coordinar el control de todas las intersecciones. Este trabajo propone un modelo ATSC regional basado en RL de agente único compatible con la tecnología de vehículos sonda. Los componentes clave del diseño de RL incluyen definiciones de funciones de estado, acción y recompensa. Para facilitar el aprendizaje y gestionar la congestión, las funciones de estado y de recompensa se definen en función de la longitud de la cola, con acciones diseñadas para regular la dinámica de la cola. La definición de longitud de cola utilizada en este estudio difiere ligeramente de las definiciones convencionales, pero está estrechamente correlacionada con los estados de congestión. Más importante aún, permite una estimación confiable utilizando datos del tiempo de viaje del enlace de los vehículos sonda. Dado que los datos de los vehículos de sonda ya cubren la mayoría de las carreteras urbanas, esta característica mejora el potencial del método propuesto para una implementación generalizada. El método se evaluó exhaustivamente utilizando la plataforma de simulación SUMO. Los resultados experimentales demuestran que el modelo propuesto mitiga eficazmente los niveles de congestión regional a gran escala mediante un control coordinado de múltiples intersecciones.
Publicado originalmente en export.arxiv.org el 4 de noviembre de 2025.
Ver fuente original
