ETA-VLA: Adaptación eficiente de tokens mediante fusión temporal y dispersión intra-LLM para modelos de visión-lenguaje-acción

Resumen: La integración de modelos Visión-Lenguaje-Acción (VLA) en sistemas de conducción autónomos ofrece un marco unificado para interpretar escenas complejas y ejecutar comandos de control. Sin embargo, la necesidad de incorporar marcos históricos de múltiples vistas para un razonamiento temporal preciso impone una carga computacional severa, impulsada principalmente por la complejidad cuadrática de los mecanismos de autoatención en los modelos de lenguaje grande (LLM). Para aliviar este cuello de botella, proponemos ETA-VLA, un marco de adaptación eficiente de tokens para modelos VLA. ETA-VLA procesa los $n$ fotogramas anteriores de imágenes de múltiples vistas e introduce un novedoso agregador disperso intra-LLM (ILSA). Inspirándose en la asignación de atención del conductor humano, ILSA identifica y elimina dinámicamente tokens visuales redundantes guiados por consultas textuales y coherencia temporal. Específicamente, utilizamos un mecanismo de puntuación guiado por texto junto con una estrategia de dispersión que preserva la diversidad para seleccionar un subconjunto escaso de tokens críticos, asegurando un conocimiento integral de la escena de conducción. Extensos experimentos con NAVSIM v2 demuestran que ETA-VLA logra un rendimiento de conducción comparable al de las líneas base más modernas, al tiempo que reduce los FLOP computacionales en aproximadamente un 32%. En particular, nuestro método elimina el 85% de los tokens visuales y reduce los FLOP de inferencia en un 61%, pero aún conserva el 94% de la precisión original en el benchmark NAVSIM v2.

Publicado originalmente en export.arxiv.org el 29 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La experiencia contextual de la experiencia para la superación personal de los agentes del lenguaje

SAJA: Un marco de ataque conjunto de acción estatal sobre el aprendizaje por refuerzo profundo de múltiples agentes

Un marco multimodal para la detección de la depresión durante Covid-19 mediante la recolección de redes sociales: un conjunto de datos y un método novedosos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido