Voto: Optimización de la acción-lenguaje de visión con votación del conjunto de trayectoria

Resumen: Los modelos recientes de acción del lenguaje de visión a gran escala (VLA) han mostrado un rendimiento superior en tareas de manipulación robótica guiados por el lenguaje natural. Sin embargo, su generalización sigue siendo limitada cuando se aplica a objetos novedosos o entornos desconocidos que se encuentran fuera de la distribución de capacitación. Para abordar esto, muchos enfoques existentes integran componentes adicionales, como la estimación de profundidad, la segmentación o incluso la difusión para mejorar la generalización, a costa de agregar sobrecargas de cálculo significativas, lo que resulta en una baja eficiencia. Esto motiva la exploración de métodos de predicción de acción eficientes, que son independientes de representaciones visuales de alto nivel adicionales o técnicas de difusión. En este trabajo, proponemos el voto, un marco eficiente y general para la optimización y la aceleración de los modelos VLA. En detalles, proponemos un nuevo enfoque de ajuste fino sin tokenizador para una predicción de acción precisa paralela, que reduce la sobrecarga computacional y acelera la velocidad de inferencia. Además, adoptamos una estrategia de votación de conjunto para el muestreo de acción, que mejora significativamente el rendimiento del modelo y mejora la generalización. Los resultados experimentales muestran que nuestro método logra un rendimiento de última generación con 35 $ veces $ inferencia más rápida y rendimiento de 145 Hz. Todos los detalles y códigos serán de código abierto.

Publicado Originalme en export.arxiv.org El 9 de julio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Walmart probará un camión de celdas de combustible de hidrógeno verde en Chile

2025 compañías de tecnología climática para ver: Ather Energy y sus scooters electrónicos premium

Análisis de concepto formal: un marco estructural para la extracción y análisis de variabilidad

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido