Resumen: Los agentes móviles han avanzado hacia la automatización confiable de los teléfonos inteligentes, pero el rendimiento en aplicaciones complejas sigue limitado por un conocimiento incompleto y una generalización débil a entornos invisibles.
Leer más →
Resumen: La síntesis de la cara parlante emocional es fundamental en el procesamiento de señales y multimedia, sin embargo, los métodos 3D existentes adolecen de dos desafíos críticos: una mala alineación de las emociones audio-visión, que se manifiesta como una extracción difícil de las emociones de audio y un control inadecuado sobre las microexpresiones emocionales; y una estrategia de fusión
Leer más →
Resumen: Los modelos recientes de visión-lenguaje tienen una fuerte capacidad de percepción, pero su razonamiento implícito es difícil de explicar y genera fácilmente alucinaciones en consultas complejas.
Leer más →