Mixrep: mezcla de representación oculta para el reconocimiento de voz de bajo recurso

Resumen: En este documento, presentamos MixRep, una estrategia de aumento de datos simple y efectiva basada en la confusión para ASR de baja recursos. MixRep interpola las dimensiones de la característica de las representaciones ocultas en la red neuronal que se pueden aplicar tanto a la entrada de características acústicas como a la salida de cada capa, lo que generaliza el método anterior de MixSpeech. Además, proponemos combinar la mezcla con una regularización a lo largo del eje de tiempo de la entrada, que se muestra como complementario. Aplicamos MixRep a un codificador conformador de una arquitectura E2E LAS capacitada con una pérdida conjunta de CTC. Experimentamos en el conjunto de datos WSJ y subconjuntos del conjunto de datos SWB, cubriendo el discurso de lectura y telefonía conversacional. Los resultados experimentales muestran que MixRep supera constantemente otros métodos de regularización para ASR de baja recursos. En comparación con una línea de base de especificación fuerte, MixRep logra un +6.5 % y una reducción relativa de +6.7 % en el conjunto Eval92 y la parte de callhome del conjunto Eval’2000.

Publicado Originalme en rss.arxiv.org El 18 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Evocut: Fortalecimiento de los programas enteros a través de modelos de lenguaje guiados por evolución

Los médicos podrían piratear el sistema nervioso con ultrasonido

No se limite a ajustar el agente, ajuste el entorno

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido