Resumen: Los modelos recientes de visión-lenguaje tienen una fuerte capacidad de percepción, pero su razonamiento implícito es difícil de explicar y genera fácilmente alucinaciones en consultas complejas.
Leer más →
Resumen: Los agentes de GUI móviles impulsados por grandes modelos básicos permiten la ejecución autónoma de tareas, pero las actualizaciones frecuentes que alteran la apariencia de la interfaz de usuario y reorganizan los flujos de trabajo hacen que los agentes entrenados con datos históricos fallen.
Leer más →
Resumen: Los conjuntos de datos existentes para la comprensión de tablas multimodales, como MMTab, proporcionan principalmente respuestas breves y fácticas sin una supervisión explícita del razonamiento de varios pasos.
Leer más →