Voyagervision: investigando el papel de la información multimodal para los sistemas de aprendizaje abiertos

Resumen: Abierto es un campo de investigación activo en la búsqueda de inteligencia general artificial capaz (AGI), lo que permite que los modelos persigan tareas de su propia elección. Simultáneamente, los avances recientes en modelos de lenguaje grande (LLM) como GPT-4O [9] han permitido que dichos modelos sean capaces de interpretar las entradas de imágenes. Las implementaciones como Omni-Epic [4] han utilizado tales características, proporcionando una LLM con datos de píxeles del POV de un agente para analizar el entorno y permitirle resolver tareas. Este documento propone que proporcionar estas entradas visuales a un modelo le brinde una mayor capacidad para interpretar entornos espaciales y, como tal, puede aumentar el número de tareas que puede realizar con éxito, extendiendo su potencial abierto. Con este objetivo, este documento propone Voyagervision, un modelo multimodal capaz de crear estructuras dentro de Minecraft utilizando capturas de pantalla como una forma de retroalimentación visual, basándose en la base de Voyager. Voyagervision era capaz de crear un promedio de 2.75 estructuras únicas dentro de las cincuenta iteraciones del sistema, ya que Voyager era incapaz de esto, es una extensión en una dirección completamente nueva. Además, en un conjunto de pruebas unitarias de construcción, Voyagervision tuvo éxito en la mitad de todos los intentos en mundos planos, con la mayoría de las fallas que surgen en estructuras más complejas. El sitio web del proyecto está disponible en esta URL HTTPS

Publicado Originalme en export.arxiv.org El 1 de julio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La Fundación Linux anuncia oradores principales para Open Source Summit India 2025

EVOAGENTX: un marco automatizado para evolucionar flujos de trabajo de agente

Evaluar empíricamente la inteligencia de sentido común en modelos de lenguaje grande con juicios humanos a gran escala

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido