En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->El punto de referencia MUSE: sondeo de la percepción musical y el razonamiento relacional auditivo en audio LLMS

El punto de referencia MUSE: sondeo de la percepción musical y el razonamiento relacional auditivo en audio LLMS

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos multimodales de lenguaje grande (MLLM) han demostrado capacidades en la comprensión de audio, pero las evaluaciones actuales pueden ocultar debilidades fundamentales en el razonamiento relacional. Presentamos el punto de referencia de evaluación estructural y comprensión musical (MUSE), un recurso de código abierto con 10 tareas diseñadas para probar las habilidades fundamentales de percepción musical. Evaluamos cuatro modelos SOTA (Gemini Pro y Flash, Qwen2.5-Omni y Audio-Flamingo 3) frente a una gran base humana (N=200). Nuestros resultados revelan una amplia variación en las capacidades SOTA y una brecha persistente con los expertos humanos. Mientras que Gemini Pro tiene éxito en la percepción básica, Qwen y Audio Flamingo 3 funcionan casi al azar, exponiendo graves déficits de percepción. Además, encontramos que las indicaciones de la Cadena de Pensamiento (CoT) proporcionan resultados inconsistentes y a menudo perjudiciales. Nuestro trabajo proporciona una herramienta fundamental para evaluar representaciones musicales invariantes e impulsar el desarrollo de sistemas de inteligencia artificial más sólidos.

Publicado originalmente en export.arxiv.org el 22 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web