Resumen: La síntesis de la cara parlante emocional es fundamental en el procesamiento de señales y multimedia, sin embargo, los métodos 3D existentes adolecen de dos desafíos críticos: una mala alineación de las emociones audio-visión, que se manifiesta como una extracción difícil de las emociones de audio y un control inadecuado sobre las microexpresiones emocionales; y una estrategia de fusión de múltiples vistas única para todos que pasa por alto la incertidumbre y las diferencias en la calidad de las funciones, lo que socava la calidad de la representación. Proponemos UA-3DTalk, síntesis de rostros parlantes emocionales 3D conscientes de la incertidumbre con destilación previa de emoción, que tiene tres módulos principales: el módulo de extracción previa desenreda el audio en características sincronizadas con el contenido para la alineación y características complementarias específicas de la persona para la individualización; el módulo Emotion Distillation presenta un mecanismo de fusión multimodal ponderado por la atención y codificación gaussiana 4D con libros de códigos de resolución múltiple, lo que permite la extracción detallada de emociones de audio y un control preciso de las microexpresiones emocionales; La deformación basada en incertidumbre despliega bloques de incertidumbre para estimar la incertidumbre aleatoria (ruido de entrada) y epistémica (parámetros del modelo) específica de la vista, realizando una fusión adaptativa de múltiples vistas e incorporando un decodificador de múltiples cabezales para la optimización primitiva gaussiana para mitigar las limitaciones de la fusión de peso uniforme. Amplios experimentos con conjuntos de datos regulares y emocionales muestran que UA-3DTalk supera a métodos de última generación como DEGSTalk y EDTalk en un 5,2 % en E-FID para alineación de emociones, un 3,1 % en SyncC para sincronización de labios y un 0,015 en LPIPS para calidad de renderizado. Página del proyecto: esta URL https
Publicado originalmente en export.arxiv.org el 27 de enero de 2026.
Ver fuente original
