Resumen: Los paradigmas de extremo a extremo han demostrado un gran potencial para la conducción autónoma. Además, la mayoría de los métodos existentes se basan en arquitecturas Transformer. Sin embargo, los transformadores incurren en un costo de atención cuadrático, lo que limita su capacidad para modelar secuencias espaciales y temporales largas, particularmente en plataformas de borde con recursos limitados. Dado que la conducción autónoma exige inherentemente un modelado temporal eficiente, este desafío limita gravemente su implementación y rendimiento en tiempo real. Recientemente, los mecanismos de atención lineal han ganado cada vez más atención debido a su superior complejidad espaciotemporal. Sin embargo, las arquitecturas de atención lineal existentes se limitan a la autoatención y carecen de soporte para interacciones intermodales y temporales, ambas cruciales para la conducción autónoma. En este trabajo, proponemos LADY, el primer modelo generativo basado en atención totalmente lineal para conducción autónoma de un extremo a otro. LADY permite la fusión de contexto temporal de largo alcance en la inferencia con costos computacionales y de memoria constantes, independientemente de la duración del historial de la cámara y las funciones LiDAR. Además, introducimos un mecanismo de atención cruzada lineal liviano que permite un intercambio de información intermodal efectivo. Los experimentos en los puntos de referencia NAVSIM y Bench2Drive demuestran que LADY logra un rendimiento de vanguardia con complejidad de memoria y tiempo constante, ofreciendo un rendimiento de planificación mejorado y un costo computacional significativamente reducido. Además, el modelo se implementó y validó en dispositivos perimetrales, lo que demuestra su practicidad en escenarios con recursos limitados.
Publicado originalmente en export.arxiv.org el 18 de diciembre de 2025.
Ver fuente original
