SyncLipMAE: preentrenamiento enmascarado contrastivo para la representación audiovisual de caras parlantes

Resumen:Presentamos SyncLipMAE, un marco de preentrenamiento autosupervisado para videos de caras parlantes que aprende dinámicas faciales transferibles y conscientes de la sincronización a partir de transmisiones audiovisuales sin etiquetar. Nuestro enfoque combina el modelado visual enmascarado con una alineación contrastiva intermodal y emplea tres tokens de aviso por cuadro que codifican explícitamente los factores esenciales de un cuadro de cara parlante: identidad, movimiento vocal (dinámica facial sincronizada con el habla) y movimiento ambiental (movimientos audio-agnósticos como parpadeos y postura de la cabeza). El objetivo contrastivo utiliza tokens de audio y movimiento vocal alineados en el tiempo como positivos y pares desalineados como negativos, llevando ambas modalidades a un espacio de incrustación compartido y produciendo una sincronización de flujo audiovisual a nivel de token. Después del entrenamiento previo, los tokens de audio alineados junto con los tokens de indicaciones visuales (identidad, movimiento vocal, movimiento ambiental) forman una interfaz unificada para cuatro configuraciones posteriores dispares: (i) sincronización de flujo audiovisual; (ii) emoción facial y reconocimiento de acción de cabeza/rostro; (iii) reconocimiento visual del habla; y (iv) doblaje visual, para el cual permitimos un control basado en audio o video indistinguible dentro de un solo modelo. En cuatro familias de tareas que requieren capacidades distintas, SyncLipMAE logra resultados de última generación, lo que subraya la eficacia del preentrenamiento autosupervisado factorizado y consciente de la sincronización.

Publicado originalmente en export.arxiv.org el 13 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Construyendo un ecosistema de innovación para el próximo siglo

SAGE: Evolución gradual consciente de la escala para la incrustación de gráficos de conocimiento continuo

¿La computación enfrenta un futuro delgado?

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido