Resumen: Los modelos multimodales de lenguaje grande (MLLM) han demostrado capacidades en la comprensión de audio, pero las evaluaciones actuales pueden ocultar debilidades fundamentales en el razonamiento relacional. Presentamos el punto de referencia de evaluación estructural y comprensión musical (MUSE), un recurso de código abierto con 10 tareas diseñadas para probar las habilidades fundamentales de percepción musical. Evaluamos cuatro modelos SOTA (Gemini Pro y Flash, Qwen2.5-Omni y Audio-Flamingo 3) frente a una gran base humana (N=200). Nuestros resultados revelan una amplia variación en las capacidades SOTA y una brecha persistente con los expertos humanos. Mientras que Gemini Pro tiene éxito en la percepción básica, Qwen y Audio Flamingo 3 funcionan casi al azar, exponiendo graves déficits de percepción. Además, encontramos que las indicaciones de la Cadena de Pensamiento (CoT) proporcionan resultados inconsistentes y a menudo perjudiciales. Nuestro trabajo proporciona una herramienta fundamental para evaluar representaciones musicales invariantes e impulsar el desarrollo de sistemas de inteligencia artificial más sólidos.
Publicado originalmente en export.arxiv.org el 22 de octubre de 2025.
Ver fuente original
