Resumen: Los modelos de acción-idioma de visión (VLA) han demostrado potencial en la conducción autónoma. Sin embargo, dos desafíos críticos obstaculizan su desarrollo: (1) Las arquitecturas VLA existentes se basan típicamente en el aprendizaje de imitación en la configuración de bucle abierto que tiende a capturar los comportamientos registrados en el conjunto de datos, lo que lleva a un rendimiento subóptimo y limitado, (2) la capacitación de bucle cercano se basa en gran medida en la simulación de sensores de alta fidelidad, donde las compensaciones de dominio de dominio y las pimaduras de barreras de la eficiencia computacional. En este documento, presentamos a IRL-Vla, un nuevo aprendizaje de refuerzo de circuito cercano a través de textbf {i} nverse textbf {r} einforcement textbf {l} Modelo mundial de recompensas con un enfoque VLA autoprendido. Nuestro marco procede en un paradigma de tres etapas: en la primera etapa, proponemos una arquitectura de VLA y pretrano la política de VLA a través del aprendizaje de imitación. En la segunda etapa, construimos un modelo mundial de recompensa ligero a través del aprendizaje de refuerzo inverso para permitir un cálculo eficiente de recompensa de circuito cercano. Para mejorar aún más el rendimiento de la planificación, finalmente, diseñamos el aprendizaje de refuerzo de Guidence Model Guidence de recompensa especializado a través de PPO (optimización de políticas proximales) para equilibrar efectivamente los incidentes de seguridad, la conducción cómoda y la eficiencia del tráfico. Nuestro enfoque logra un rendimiento de vanguardia en el punto de referencia de conducción de extremo a extremo de Navsim V2, primer finalista en el gran desafío Autónomo CVPR2025. Esperamos que nuestro marco acelere la investigación de VLA en la conducción autónoma de circuito cercano.
Publicado Originalme en export.arxiv.org El 11 de agosto de 2025.
Ver Fuente Original