Voto: Optimización de la acción-lenguaje de visión con votación del conjunto de trayectoria
Resumen: Los modelos recientes de acción del lenguaje de visión a gran escala (VLA) han mostrado un rendimiento superior en tareas de manipulación robótica guiados por el lenguaje natural. Sin embargo, su generalización sigue siendo limitada cuando se aplica a objetos novedosos o entornos desconocidos que se encuentran fuera de la distribución de capacitación.
Leer más →