En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->SyncLipMAE: preentrenamiento enmascarado contrastivo para la representación audiovisual de caras parlantes

SyncLipMAE: preentrenamiento enmascarado contrastivo para la representación audiovisual de caras parlantes

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Presentamos SyncLipMAE, un marco de preentrenamiento autosupervisado para videos de caras parlantes que aprende dinámicas faciales transferibles y conscientes de la sincronización a partir de transmisiones audiovisuales sin etiquetar. Nuestro enfoque combina el modelado visual enmascarado con una alineación contrastiva intermodal y emplea tres tokens de aviso por cuadro que codifican explícitamente los factores esenciales de un cuadro de cara parlante: identidad, movimiento vocal (dinámica facial sincronizada con el habla) y movimiento ambiental (movimientos audio-agnósticos como parpadeos y postura de la cabeza). El objetivo contrastivo utiliza tokens de audio y movimiento vocal alineados en el tiempo como positivos y pares desalineados como negativos, llevando ambas modalidades a un espacio de incrustación compartido y produciendo una sincronización de flujo audiovisual a nivel de token. Después del entrenamiento previo, los tokens de audio alineados junto con los tokens de indicaciones visuales (identidad, movimiento vocal, movimiento ambiental) forman una interfaz unificada para cuatro configuraciones posteriores dispares: (i) sincronización de flujo audiovisual; (ii) emoción facial y reconocimiento de acción de cabeza/rostro; (iii) reconocimiento visual del habla; y (iv) doblaje visual, para el cual permitimos un control basado en audio o video indistinguible dentro de un solo modelo. En cuatro familias de tareas que requieren capacidades distintas, SyncLipMAE logra resultados de última generación, lo que subraya la eficacia del preentrenamiento autosupervisado factorizado y consciente de la sincronización.

Publicado originalmente en export.arxiv.org el 13 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web