Resumen: Exploramos si las redes neuronales pueden decodificar la actividad cerebral en habla al mapear grabaciones de EEG en representaciones de audio. Utilizando datos de EEG registrados mientras los sujetos escuchaban el habla natural, entrenamos un modelo con una pérdida CLIP contrastiva para alinear las incrustaciones derivadas de EEG con las incrustaciones de un modelo de voz basado en transformador previamente entrenado. Sobre la base del decodificador EEG de última generación de Meta, introducimos tres modificaciones arquitectónicas: (i) capas de atención específicas del sujeto (+0,15% de mejora WER), (ii) atención espacial personalizada (+0,45%) y (iii) un RNN de doble ruta con atención (-1,87%). Dos de las tres modificaciones mejoraron el rendimiento, destacando la promesa de arquitecturas personalizadas para la decodificación cerebro-voz y aplicaciones en interfaces cerebro-computadora.
Publicado originalmente en export.arxiv.org el 9 de noviembre de 2025.
Ver fuente original
