Cómo desbloquear una supervisión sólida: un estudio centrado en datos de métodos de preentrenamiento de audio de uso general

Resumen: El preentrenamiento de audio actual busca aprender representaciones unificadas para tareas amplias de comprensión de audio, pero sigue estando fragmentado y tiene un cuello de botella fundamentalmente por su dependencia de etiquetas débiles, ruidosas y de escala limitada. A partir de las lecciones del plan fundamental de preentrenamiento de la visión, sostenemos que el campo del audio debe primero establecer su propio marco de supervisión sólido y a gran escala. Presentamos un nuevo canal centrado en datos que aprovecha un subtítulo de alta fidelidad para crear subtítulos de calidad SOTA y el primer sistema de etiquetas unificado (UTS) que une el habla, la música y los sonidos ambientales. Luego llevamos a cabo un estudio comparativo sistemático de diferentes objetivos previos a la capacitación sobre estos datos fuente sólidos. Nuestros experimentos sugieren que la calidad y la cobertura de los datos son los principales impulsores del rendimiento, mientras que la elección del objetivo dicta la especialización de las tareas posteriores.

Publicado originalmente en export.arxiv.org el 29 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Festa: muestreo funcionalmente equivalente para la evaluación de la confianza de los LLM multimodales

Los costos ocultos de la IA: una revisión de la energía, los desechos electrónicos y la desigualdad en el desarrollo del modelo

ContextBench: modificación de contextos para activación latente dirigida

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido