En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Síntesis de rostros parlantes emocionales 3D conscientes de la incertidumbre con destilación previa de emociones

Síntesis de rostros parlantes emocionales 3D conscientes de la incertidumbre con destilación previa de emociones

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La síntesis de la cara parlante emocional es fundamental en el procesamiento de señales y multimedia, sin embargo, los métodos 3D existentes adolecen de dos desafíos críticos: una mala alineación de las emociones audio-visión, que se manifiesta como una extracción difícil de las emociones de audio y un control inadecuado sobre las microexpresiones emocionales; y una estrategia de fusión de múltiples vistas única para todos que pasa por alto la incertidumbre y las diferencias en la calidad de las funciones, lo que socava la calidad de la representación. Proponemos UA-3DTalk, síntesis de rostros parlantes emocionales 3D conscientes de la incertidumbre con destilación previa de emoción, que tiene tres módulos principales: el módulo de extracción previa desenreda el audio en características sincronizadas con el contenido para la alineación y características complementarias específicas de la persona para la individualización; el módulo Emotion Distillation presenta un mecanismo de fusión multimodal ponderado por la atención y codificación gaussiana 4D con libros de códigos de resolución múltiple, lo que permite la extracción detallada de emociones de audio y un control preciso de las microexpresiones emocionales; La deformación basada en incertidumbre despliega bloques de incertidumbre para estimar la incertidumbre aleatoria (ruido de entrada) y epistémica (parámetros del modelo) específica de la vista, realizando una fusión adaptativa de múltiples vistas e incorporando un decodificador de múltiples cabezales para la optimización primitiva gaussiana para mitigar las limitaciones de la fusión de peso uniforme. Amplios experimentos con conjuntos de datos regulares y emocionales muestran que UA-3DTalk supera a métodos de última generación como DEGSTalk y EDTalk en un 5,2 % en E-FID para alineación de emociones, un 3,1 % en SyncC para sincronización de labios y un 0,015 en LPIPS para calidad de renderizado. Página del proyecto: esta URL https

Publicado originalmente en export.arxiv.org el 27 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web