Resumen: Los modelos recientes de acción del lenguaje de visión a gran escala (VLA) han mostrado un rendimiento superior en tareas de manipulación robótica guiados por el lenguaje natural. Sin embargo, su generalización sigue siendo limitada cuando se aplica a objetos novedosos o entornos desconocidos que se encuentran fuera de la distribución de capacitación. Para abordar esto, muchos enfoques existentes integran componentes adicionales, como la estimación de profundidad, la segmentación o incluso la difusión para mejorar la generalización, a costa de agregar sobrecargas de cálculo significativas, lo que resulta en una baja eficiencia. Esto motiva la exploración de métodos de predicción de acción eficientes, que son independientes de representaciones visuales de alto nivel adicionales o técnicas de difusión. En este trabajo, proponemos el voto, un marco eficiente y general para la optimización y la aceleración de los modelos VLA. En detalles, proponemos un nuevo enfoque de ajuste fino sin tokenizador para una predicción de acción precisa paralela, que reduce la sobrecarga computacional y acelera la velocidad de inferencia. Además, adoptamos una estrategia de votación de conjunto para el muestreo de acción, que mejora significativamente el rendimiento del modelo y mejora la generalización. Los resultados experimentales muestran que nuestro método logra un rendimiento de última generación con 35 $ veces $ inferencia más rápida y rendimiento de 145 Hz. Todos los detalles y códigos serán de código abierto.
Publicado Originalme en export.arxiv.org El 9 de julio de 2025.
Ver Fuente Original