Resumen: Los agentes de GUI móviles impulsados por grandes modelos básicos permiten la ejecución autónoma de tareas, pero las actualizaciones frecuentes que alteran la apariencia de la interfaz de usuario y reorganizan los flujos de trabajo hacen que los agentes entrenados con datos históricos fallen.
Leer más →
Resumen: Los conjuntos de datos existentes para la comprensión de tablas multimodales, como MMTab, proporcionan principalmente respuestas breves y fácticas sin una supervisión explícita del razonamiento de varios pasos.
Leer más →
Resumen: Los modelos de recomendación secuencial se utilizan ampliamente en aplicaciones, pero enfrentan estrictos requisitos de latencia. Los modelos convencionales aprovechan el mecanismo de atención de Transformer para mejorar el rendimiento, pero su complejidad computacional crece con la longitud de la secuencia, lo que genera un desafío de latencia para secuencias largas.
Leer más →