Resumen: El preentrenamiento de audio actual busca aprender representaciones unificadas para tareas amplias de comprensión de audio, pero sigue estando fragmentado y tiene un cuello de botella fundamentalmente por su dependencia de etiquetas débiles, ruidosas y de escala limitada. A partir de las lecciones del plan fundamental de preentrenamiento de la visión, sostenemos que el campo del audio debe primero establecer su propio marco de supervisión sólido y a gran escala. Presentamos un nuevo canal centrado en datos que aprovecha un subtítulo de alta fidelidad para crear subtítulos de calidad SOTA y el primer sistema de etiquetas unificado (UTS) que une el habla, la música y los sonidos ambientales. Luego llevamos a cabo un estudio comparativo sistemático de diferentes objetivos previos a la capacitación sobre estos datos fuente sólidos. Nuestros experimentos sugieren que la calidad y la cobertura de los datos son los principales impulsores del rendimiento, mientras que la elección del objetivo dicta la especialización de las tareas posteriores.
Publicado originalmente en export.arxiv.org el 29 de marzo de 2026.
Ver fuente original
