Resumen: Un gran desafío para la IA moderna es aprender a comprender el mundo y aprender a actuar en gran medida por observación. Este documento explora un enfoque auto-supervisado que combina datos de video a escala de Internet con una pequeña cantidad de datos de interacción (trayectorias de robots), para desarrollar modelos capaces de comprender, predecir y planificar en el mundo físico. Primero, pre-entretenemos una arquitectura predictiva de incrustaciones conjuntas sin acciones, V-JepA 2, en un conjunto de datos de video e imágenes que comprende más de 1 millón de horas de video de Internet. V-JEPA 2 logra un fuerte rendimiento en la comprensión del movimiento (77.3 Top-1 precisión en algo y tantos V2) y el rendimiento de vanguardia en la anticipación de acción humana (39.7 RECORT-AT-5 en Epic-Kitchens-100) que supera los modelos específicos de tareas anteriores. Además, después de alinear V-JEPA 2 con un modelo de lenguaje grande, demostramos un rendimiento de última generación en múltiples tareas de respuesta-respuesta de video en la escala de parámetros de 8 mil millones (por ejemplo, 84.0 en Percepttest, 76.9 en TempoMpass). Finalmente, mostramos cómo el aprendizaje auto-supervisado se puede aplicar a las tareas de planificación robótica mediante la capacitación posterior a un modelo mundial de acción latente, V-JEPA 2-AC, utilizando menos de 62 horas de videos de robots no etiquetados del conjunto de datos Droid. Implementamos V-JEPA 2-AC Zero-shot en Franka Arms en dos laboratorios diferentes y permitimos elegir y colocar objetos utilizando la planificación con objetivos de imagen. En particular, esto se logra sin recopilar ningún dato de los robots en estos entornos y sin ninguna capacitación o recompensa específica de tareas. Este trabajo demuestra cómo el aprendizaje auto-supervisado de los datos a escala web y una pequeña cantidad de datos de interacción de robots pueden producir un modelo mundial capaz de planificar en el mundo físico.
Publicado Originalme en rss.arxiv.org El 11 de junio de 2025.
Ver Fuente Original