¿Ayudan las diapositivas? Contexto multimodal para la transcripción automática de charlas de conferencias

En este momento estás viendo
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->¿Ayudan las diapositivas? Contexto multimodal para la transcripción automática de charlas de conferencias

Autor de la entrada:admin
Publicación de la entrada:16 octubre, 2025
Categoría de la entrada:Noticias externas

Resumen: En un primer paso, creamos un punto de referencia para la presentación multimodal que incluye un análisis automático de la transcripción de terminología específica del dominio. A continuación, exploramos métodos para aumentar los modelos de habla con información multimodal. Mitigamos la falta de conjuntos de datos con diapositivas adjuntas mediante un enfoque adecuado de aumento de datos. Finalmente, entrenamos un modelo utilizando el conjunto de datos aumentado, lo que da como resultado una reducción relativa en la tasa de error de palabras de aproximadamente el 34 %, en todas las palabras y el 35 %, para términos de dominios específicos, en comparación con el modelo de referencia.

Publicado originalmente en export.arxiv.org el 16 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web