El punto de referencia MUSE: sondeo de la percepción musical y el razonamiento relacional auditivo en audio LLMS

Resumen: Los modelos multimodales de lenguaje grande (MLLM) han demostrado capacidades en la comprensión de audio, pero las evaluaciones actuales pueden ocultar debilidades fundamentales en el razonamiento relacional. Presentamos el punto de referencia de evaluación estructural y comprensión musical (MUSE), un recurso de código abierto con 10 tareas diseñadas para probar las habilidades fundamentales de percepción musical. Evaluamos cuatro modelos SOTA (Gemini Pro y Flash, Qwen2.5-Omni y Audio-Flamingo 3) frente a una gran base humana (N=200). Nuestros resultados revelan una amplia variación en las capacidades SOTA y una brecha persistente con los expertos humanos. Mientras que Gemini Pro tiene éxito en la percepción básica, Qwen y Audio Flamingo 3 funcionan casi al azar, exponiendo graves déficits de percepción. Además, encontramos que las indicaciones de la Cadena de Pensamiento (CoT) proporcionan resultados inconsistentes y a menudo perjudiciales. Nuestro trabajo proporciona una herramienta fundamental para evaluar representaciones musicales invariantes e impulsar el desarrollo de sistemas de inteligencia artificial más sólidos.

Publicado originalmente en export.arxiv.org el 22 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Las nominaciones ya están abiertas para nuestra competencia global 2026 Innovadores menores de 35 años

VLM@School – Evaluación de la comprensión de la imagen de IA sobre el conocimiento alemán de la escuela secundaria

LatentGuard: dirección latente controlable para un rechazo robusto de ataques y generación de respuesta confiable

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido