En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Optimus-3: hacia agentes multimodales de Minecraft generalistas con expertos en tareas escalables

Optimus-3: hacia agentes multimodales de Minecraft generalistas con expertos en tareas escalables

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Recientemente, los agentes basados ​​en modelos de lenguaje grande multimodal (MLLMS) han logrado un progreso notable en varios dominios. Sin embargo, construir un agente generalista con capacidades como la percepción, la planificación, la acción, la base y la reflexión en entornos del mundo abierto como Minecraft sigue siendo desafíos: datos insuficientes específicos del dominio, interferencia entre tareas heterogéneas y diversidad visual en entornos del mundo abierto. En este documento, abordamos estos desafíos a través de tres contribuciones clave. 1) Proponemos una tubería de generación de datos mejorada por el conocimiento para proporcionar datos de capacitación escalable y de alta calidad para el desarrollo de agentes. 2) Para mitigar la interferencia entre las tareas heterogéneas, presentamos una arquitectura de mezcla de expertos (MOE) con enrutamiento a nivel de tareas. 3) Desarrollamos un enfoque de aprendizaje de refuerzo de refuerzo de razonamiento multimodal para mejorar la capacidad de razonamiento del agente para la diversidad visual en Minecraft. Basado sobre estas innovaciones, presentamos a Optimus-3, un agente de propósito general para Minecraft. Extensos resultados experimentales demuestran que Optimus-3 supera tanto los modelos de lenguaje multimodal generalista como los agentes de vanguardia existentes en una amplia gama de tareas en el entorno de Minecraft. Página del proyecto: esta URL HTTPS

Publicado Originalme en rss.arxiv.org El 12 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web