Resumen: La planificación de conducción multimodal enfrenta una tensión de larga data entre dos paradigmas: los métodos basados en puntajes se benefician de una supervisión de recompensa densa pero están confinados a un vocabulario de acción fijo, mientras que los métodos basados en anclas generan propuestas dinámicamente pero sufren de una supervisión escasa restringida a una única trayectoria de verdad sobre el terreno. En este trabajo, proponemos FlowR2A, que resuelve esta tensión reformulando las recompensas basadas en simulación de objetivos discriminativos a condiciones generativas. Al aprender la distribución de la acción condicionada por la recompensa a partir de pares densos de trayectoria-recompensa con un decodificador de coincidencia de flujo, FlowR2A unifica la supervisión densa de los métodos basados en puntuación con la generación de propuestas de métodos basados en anclas en un único modelo generativo, lo que obliga al modelo a internalizar la correlación entre una acción y sus resultados en materia de seguridad, progreso, comodidad y cumplimiento de las reglas. Para equilibrar las restricciones de seguridad estrictas con los objetivos de progreso blandos, introducimos un condicionamiento de recompensa detallado por paso de tiempo y un aumento del ruido de recompensa. La formulación generativa admite naturalmente el muestreo controlable en el momento de la prueba mediante guía de recompensa y muestreo anclado, lo que produce propuestas de alta calidad. FlowR2A logra resultados de última generación en los puntos de referencia NAVSIM v1 y v2, con propuestas multimodales de una calidad sustancialmente mayor que los métodos anteriores.
Publicado originalmente en export.arxiv.org el 23 de junio de 2026.
Ver fuente original
