En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->ETA-VLA: Adaptación eficiente de tokens mediante fusión temporal y dispersión intra-LLM para modelos de visión-lenguaje-acción

ETA-VLA: Adaptación eficiente de tokens mediante fusión temporal y dispersión intra-LLM para modelos de visión-lenguaje-acción

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La integración de modelos Visión-Lenguaje-Acción (VLA) en sistemas de conducción autónomos ofrece un marco unificado para interpretar escenas complejas y ejecutar comandos de control. Sin embargo, la necesidad de incorporar marcos históricos de múltiples vistas para un razonamiento temporal preciso impone una carga computacional severa, impulsada principalmente por la complejidad cuadrática de los mecanismos de autoatención en los modelos de lenguaje grande (LLM). Para aliviar este cuello de botella, proponemos ETA-VLA, un marco de adaptación eficiente de tokens para modelos VLA. ETA-VLA procesa los $n$ fotogramas anteriores de imágenes de múltiples vistas e introduce un novedoso agregador disperso intra-LLM (ILSA). Inspirándose en la asignación de atención del conductor humano, ILSA identifica y elimina dinámicamente tokens visuales redundantes guiados por consultas textuales y coherencia temporal. Específicamente, utilizamos un mecanismo de puntuación guiado por texto junto con una estrategia de dispersión que preserva la diversidad para seleccionar un subconjunto escaso de tokens críticos, asegurando un conocimiento integral de la escena de conducción. Extensos experimentos con NAVSIM v2 demuestran que ETA-VLA logra un rendimiento de conducción comparable al de las líneas base más modernas, al tiempo que reduce los FLOP computacionales en aproximadamente un 32%. En particular, nuestro método elimina el 85% de los tokens visuales y reduce los FLOP de inferencia en un 61%, pero aún conserva el 94% de la precisión original en el benchmark NAVSIM v2.

Publicado originalmente en export.arxiv.org el 29 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web