V-Jepa 2: los modelos de video auto-supervisados permiten la comprensión, la predicción y la planificación

Resumen: Un gran desafío para la IA moderna es aprender a comprender el mundo y aprender a actuar en gran medida por observación. Este documento explora un enfoque auto-supervisado que combina datos de video a escala de Internet con una pequeña cantidad de datos de interacción (trayectorias de robots), para desarrollar modelos capaces de comprender, predecir y planificar en el mundo físico. Primero, pre-entretenemos una arquitectura predictiva de incrustaciones conjuntas sin acciones, V-JepA 2, en un conjunto de datos de video e imágenes que comprende más de 1 millón de horas de video de Internet. V-JEPA 2 logra un fuerte rendimiento en la comprensión del movimiento (77.3 Top-1 precisión en algo y tantos V2) y el rendimiento de vanguardia en la anticipación de acción humana (39.7 RECORT-AT-5 en Epic-Kitchens-100) que supera los modelos específicos de tareas anteriores. Además, después de alinear V-JEPA 2 con un modelo de lenguaje grande, demostramos un rendimiento de última generación en múltiples tareas de respuesta-respuesta de video en la escala de parámetros de 8 mil millones (por ejemplo, 84.0 en Percepttest, 76.9 en TempoMpass). Finalmente, mostramos cómo el aprendizaje auto-supervisado se puede aplicar a las tareas de planificación robótica mediante la capacitación posterior a un modelo mundial de acción latente, V-JEPA 2-AC, utilizando menos de 62 horas de videos de robots no etiquetados del conjunto de datos Droid. Implementamos V-JEPA 2-AC Zero-shot en Franka Arms en dos laboratorios diferentes y permitimos elegir y colocar objetos utilizando la planificación con objetivos de imagen. En particular, esto se logra sin recopilar ningún dato de los robots en estos entornos y sin ninguna capacitación o recompensa específica de tareas. Este trabajo demuestra cómo el aprendizaje auto-supervisado de los datos a escala web y una pequeña cantidad de datos de interacción de robots pueden producir un modelo mundial capaz de planificar en el mundo físico.

Publicado Originalme en rss.arxiv.org El 11 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

¿Qué mide realmente tu punto de referencia? Un marco para una inferencia robusta de capacidades de IA

Sopa de rana: agentes de Frogger de bajo contenido de shot, en contexto y de muestra

Planificación de trayectoria UAV segura y económica en un espacio aéreo a baja altitud: un enfoque Hybrid DRL-LLM con conciencia de cumplimiento

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido