En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Ming-Omni: un modelo multimodal unificado para la percepción y generación

Ming-Omni: un modelo multimodal unificado para la percepción y generación

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Proponemos Ming-AMNI, un modelo multimodal unificado capaz de procesar imágenes, texto, audio y video, al tiempo que demuestra una fuerte competencia tanto en la generación de voz como en el habla. Ming-Omni emplea codificadores dedicados para extraer tokens de diferentes modalidades, que luego son procesadas por Ling, una arquitectura MOE equipada con enrutadores específicos de modalidad recientemente propuestos. Este diseño permite que un solo modelo procese de manera eficiente y fusione las entradas multimodales dentro de un marco unificado, facilitando así diversas tareas sin requerir modelos separados, ajuste fino específico de tareas o rediseño estructural. Es importante destacar que Ming-Omni se extiende más allá de los modelos multimodales convencionales al soportar la generación de audio e imágenes. Esto se logra mediante la integración de un decodificador de audio avanzado para el habla natural y Ming-Lite-Uni para la generación de imágenes de alta calidad, que también permiten que el modelo participe en chatear con contexto, realizar la conversión de texto a voz y realizar una edición de imágenes versátiles. Nuestros resultados experimentales muestran que Ming-Omni ofrece una solución poderosa para la percepción y generación unificadas en todas las modalidades. En particular, nuestro Ming-Omni propuesto es el primer modelo de código abierto que conocemos para que coincida con GPT-4O en soporte de modalidad, y lanzamos todos los pesos de código y modelo para alentar más investigaciones y desarrollo en la comunidad.

Publicado Originalme en rss.arxiv.org El 11 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web