Resumen: En este documento, presentamos MixRep, una estrategia de aumento de datos simple y efectiva basada en la confusión para ASR de baja recursos. MixRep interpola las dimensiones de la característica de las representaciones ocultas en la red neuronal que se pueden aplicar tanto a la entrada de características acústicas como a la salida de cada capa, lo que generaliza el método anterior de MixSpeech. Además, proponemos combinar la mezcla con una regularización a lo largo del eje de tiempo de la entrada, que se muestra como complementario. Aplicamos MixRep a un codificador conformador de una arquitectura E2E LAS capacitada con una pérdida conjunta de CTC. Experimentamos en el conjunto de datos WSJ y subconjuntos del conjunto de datos SWB, cubriendo el discurso de lectura y telefonía conversacional. Los resultados experimentales muestran que MixRep supera constantemente otros métodos de regularización para ASR de baja recursos. En comparación con una línea de base de especificación fuerte, MixRep logra un +6.5 % y una reducción relativa de +6.7 % en el conjunto Eval92 y la parte de callhome del conjunto Eval’2000.
Publicado Originalme en rss.arxiv.org El 18 de junio de 2025.
Ver Fuente Original