DixitWorld: Evaluación del razonamiento abductivo multimodal en modelos de visión y lenguaje con juego Dixit multiagente

Resumen: El razonamiento abductivo multimodal (la generación y selección de hipótesis explicativas a partir de observaciones parciales) es una piedra angular de la inteligencia. Las evaluaciones actuales de esta capacidad en modelos de visión y lenguaje (VLM) se limitan en gran medida a tareas estáticas de un solo agente.

Leer más →

Comentarios desactivados en DixitWorld: Evaluación del razonamiento abductivo multimodal en modelos de visión y lenguaje con juego Dixit multiagente

SyncLipMAE: preentrenamiento enmascarado contrastivo para la representación audiovisual de caras parlantes

Resumen:Presentamos SyncLipMAE, un marco de preentrenamiento autosupervisado para videos de caras parlantes que aprende dinámicas faciales transferibles y conscientes de la sincronización a partir de transmisiones audiovisuales sin etiquetar.

Leer más →

Comentarios desactivados en SyncLipMAE: preentrenamiento enmascarado contrastivo para la representación audiovisual de caras parlantes

Fin del contenido

No hay más páginas por cargar