FlowR2A: Distribución de recompensa a la acción del aprendizaje para la planificación de conducción multimodal

Resumen: La planificación de conducción multimodal enfrenta una tensión de larga data entre dos paradigmas: los métodos basados en puntajes se benefician de una supervisión de recompensa densa pero están confinados a un vocabulario de acción fijo, mientras que los métodos basados en anclas generan propuestas dinámicamente pero sufren de una supervisión escasa restringida a una única trayectoria de verdad sobre el terreno. En este trabajo, proponemos FlowR2A, que resuelve esta tensión reformulando las recompensas basadas en simulación de objetivos discriminativos a condiciones generativas. Al aprender la distribución de la acción condicionada por la recompensa a partir de pares densos de trayectoria-recompensa con un decodificador de coincidencia de flujo, FlowR2A unifica la supervisión densa de los métodos basados en puntuación con la generación de propuestas de métodos basados en anclas en un único modelo generativo, lo que obliga al modelo a internalizar la correlación entre una acción y sus resultados en materia de seguridad, progreso, comodidad y cumplimiento de las reglas. Para equilibrar las restricciones de seguridad estrictas con los objetivos de progreso blandos, introducimos un condicionamiento de recompensa detallado por paso de tiempo y un aumento del ruido de recompensa. La formulación generativa admite naturalmente el muestreo controlable en el momento de la prueba mediante guía de recompensa y muestreo anclado, lo que produce propuestas de alta calidad. FlowR2A logra resultados de última generación en los puntos de referencia NAVSIM v1 y v2, con propuestas multimodales de una calidad sustancialmente mayor que los métodos anteriores.

Publicado originalmente en export.arxiv.org el 23 de junio de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Protección de la columna vertebral de Internet

Finagentbench: un conjunto de datos de referencia para la recuperación de agente en la respuesta a las preguntas financieras

Descubrimiento causal no monótono con mapas cognitivos difusos de Kolmogorov-Arnold

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido