Deformador: acoplamiento patrones localizados deformados con un contexto global para un robusto reconocimiento de voz de extremo a extremo
Resumen: Las redes neuronales convolucionales (CNN) han mejorado enormemente el rendimiento de reconocimiento de voz al explotar los patrones de frecuencia de tiempo localizados. Pero se supone que estos patrones aparecen en núcleos simétricos y rígidos por la operación convencional de CNN.
Leer más →