Resumen: En un primer paso, creamos un punto de referencia para la presentación multimodal que incluye un análisis automático de la transcripción de terminología específica del dominio. A continuación, exploramos métodos para aumentar los modelos de habla con información multimodal. Mitigamos la falta de conjuntos de datos con diapositivas adjuntas mediante un enfoque adecuado de aumento de datos. Finalmente, entrenamos un modelo utilizando el conjunto de datos aumentado, lo que da como resultado una reducción relativa en la tasa de error de palabras de aproximadamente el 34 %, en todas las palabras y el 35 %, para términos de dominios específicos, en comparación con el modelo de referencia.
Publicado originalmente en export.arxiv.org el 16 de octubre de 2025.
Ver fuente original
