Resumen:La planificación permite a un agente refinar de forma segura sus acciones antes de ejecutarlas en el mundo real. En la conducción autónoma, esto es crucial para evitar colisiones y navegar en escenarios de tráfico complejos y densos. Una forma de planificar es buscar la mejor secuencia de acción. Sin embargo, esto es un desafío cuando es necesario aprender todos los componentes necesarios (política, predictor del próximo estado y crítico). Aquí proponemos Simulación diferenciable para búsqueda (DSS), un marco que aprovecha el simulador diferenciable Waymax como predictor del siguiente estado y crítico. Se basa en la dinámica codificada del simulador, lo que hace que las predicciones de estado sean muy precisas, al tiempo que utiliza la diferenciabilidad del simulador para buscar de manera efectiva en secuencias de acción. Nuestro agente DSS optimiza sus acciones utilizando el descenso de gradiente sobre trayectorias futuras imaginadas. Demostramos experimentalmente que DSS (la combinación de gradientes de planificación y búsqueda estocástica) mejora significativamente la precisión del seguimiento y la planificación de rutas en comparación con la predicción de secuencias, el aprendizaje por imitación, la RL sin modelos y otros métodos de planificación.
Publicado originalmente en export.arxiv.org el 17 de noviembre de 2025.
Ver fuente original
