Resumen: Comprender las intenciones de los usuarios de las trayectorias de interacción de la interfaz de usuario sigue siendo una frontera desafiante, pero crucial, en el desarrollo de agentes inteligentes. Mientras que los modelos de lenguaje grande (MLLMS) basados en el centro de datos (MLLMS) basados en el centro de datos poseen una mayor capacidad para manejar las complejidades de tales secuencias, modelos más pequeños que pueden ejecutar en el dispositivo para proporcionar una experiencia de usuario de preservación de la privacidad, de bajo costo y baja latencia, lucha con una inferencia de intención precisa. Abordamos estas limitaciones introduciendo un enfoque descompuesto novedoso: primero, realizamos resumen de interacción estructurada, capturando información clave de cada acción del usuario. En segundo lugar, realizamos extracción de intención utilizando un modelo ajustado que opera en los resúmenes agregados. Este método mejora la comprensión de la intención en los modelos limitados por recursos, incluso superando el rendimiento base de grandes MLLM.
Publicado Originalme en export.arxiv.org El 16 de septiembre de 2025.
Ver Fuente Original