Modelo de aprendizaje por refuerzo de agente único para el control regional adaptativo de señales de tráfico

Resumen:Varios estudios han empleado el aprendizaje por refuerzo (RL) para abordar los desafíos del control regional adaptativo de señales de tráfico (ATSC) y han logrado resultados prometedores. En este campo, la investigación existente adopta predominantemente marcos de múltiples agentes. Sin embargo, la adopción de marcos multiagente presenta desafíos para la escalabilidad. En cambio, el problema del control de señales de tráfico (TSC) necesita un marco de agente único. TSC depende inherentemente de la gestión centralizada por parte de un único centro de control, que puede monitorear las condiciones del tráfico en todas las carreteras en el área de estudio y coordinar el control de todas las intersecciones. Este trabajo propone un modelo ATSC regional basado en RL de agente único compatible con la tecnología de vehículos sonda. Los componentes clave del diseño de RL incluyen definiciones de funciones de estado, acción y recompensa. Para facilitar el aprendizaje y gestionar la congestión, las funciones de estado y de recompensa se definen en función de la longitud de la cola, con acciones diseñadas para regular la dinámica de la cola. La definición de longitud de cola utilizada en este estudio difiere ligeramente de las definiciones convencionales, pero está estrechamente correlacionada con los estados de congestión. Más importante aún, permite una estimación confiable utilizando datos del tiempo de viaje del enlace de los vehículos sonda. Dado que los datos de los vehículos de sonda ya cubren la mayoría de las carreteras urbanas, esta característica mejora el potencial del método propuesto para una implementación generalizada. El método se evaluó exhaustivamente utilizando la plataforma de simulación SUMO. Los resultados experimentales demuestran que el modelo propuesto mitiga eficazmente los niveles de congestión regional a gran escala mediante un control coordinado de múltiples intersecciones.

Publicado originalmente en export.arxiv.org el 4 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Witar Second Lunch Salon: una introducción práctica al cumplimiento de la protección de datos

El recordatorio de seguridad: un indicador suave para reactivar la conciencia de seguridad retrasada en los modelos de lenguaje de la visión

Aprendizaje por refuerzo para tareas desordenadas a largo plazo: de máquinas de recompensa booleanas a acopladas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido