Resumen: Abierto es un campo de investigación activo en la búsqueda de inteligencia general artificial capaz (AGI), lo que permite que los modelos persigan tareas de su propia elección. Simultáneamente, los avances recientes en modelos de lenguaje grande (LLM) como GPT-4O [9] han permitido que dichos modelos sean capaces de interpretar las entradas de imágenes. Las implementaciones como Omni-Epic [4] han utilizado tales características, proporcionando una LLM con datos de píxeles del POV de un agente para analizar el entorno y permitirle resolver tareas. Este documento propone que proporcionar estas entradas visuales a un modelo le brinde una mayor capacidad para interpretar entornos espaciales y, como tal, puede aumentar el número de tareas que puede realizar con éxito, extendiendo su potencial abierto. Con este objetivo, este documento propone Voyagervision, un modelo multimodal capaz de crear estructuras dentro de Minecraft utilizando capturas de pantalla como una forma de retroalimentación visual, basándose en la base de Voyager. Voyagervision era capaz de crear un promedio de 2.75 estructuras únicas dentro de las cincuenta iteraciones del sistema, ya que Voyager era incapaz de esto, es una extensión en una dirección completamente nueva. Además, en un conjunto de pruebas unitarias de construcción, Voyagervision tuvo éxito en la mitad de todos los intentos en mundos planos, con la mayoría de las fallas que surgen en estructuras más complejas. El sitio web del proyecto está disponible en esta URL HTTPS
Publicado Originalme en export.arxiv.org El 1 de julio de 2025.
Ver Fuente Original