Ming-Omni: un modelo multimodal unificado para la percepción y generación

Resumen: Proponemos Ming-AMNI, un modelo multimodal unificado capaz de procesar imágenes, texto, audio y video, al tiempo que demuestra una fuerte competencia tanto en la generación de voz como en el habla. Ming-Omni emplea codificadores dedicados para extraer tokens de diferentes modalidades, que luego son procesadas por Ling, una arquitectura MOE equipada con enrutadores específicos de modalidad recientemente propuestos. Este diseño permite que un solo modelo procese de manera eficiente y fusione las entradas multimodales dentro de un marco unificado, facilitando así diversas tareas sin requerir modelos separados, ajuste fino específico de tareas o rediseño estructural. Es importante destacar que Ming-Omni se extiende más allá de los modelos multimodales convencionales al soportar la generación de audio e imágenes. Esto se logra mediante la integración de un decodificador de audio avanzado para el habla natural y Ming-Lite-Uni para la generación de imágenes de alta calidad, que también permiten que el modelo participe en chatear con contexto, realizar la conversión de texto a voz y realizar una edición de imágenes versátiles. Nuestros resultados experimentales muestran que Ming-Omni ofrece una solución poderosa para la percepción y generación unificadas en todas las modalidades. En particular, nuestro Ming-Omni propuesto es el primer modelo de código abierto que conocemos para que coincida con GPT-4O en soporte de modalidad, y lanzamos todos los pesos de código y modelo para alentar más investigaciones y desarrollo en la comunidad.

Publicado Originalme en rss.arxiv.org El 11 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Basilio: Aprendizaje simbólico simbólico de mejor acción para las políticas de RL compactas en evolución

Actas del primer taller sobre el avance de la inteligencia artificial a través de la teoría de la mente

Avance de la Internet cuántica: desde el laboratorio hasta el mundo real

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido