Resumen: Las limitaciones de recursos computacionales en los dispositivos de borde dificultan el desarrollo de un sistema complementario de IA totalmente integrado con una experiencia de usuario satisfactoria. Los sistemas de memoria y complementarios de IA detallados en la literatura existente no se pueden utilizar directamente en un entorno de este tipo debido a la falta de recursos informáticos y problemas de latencia. En este artículo, proponemos un paradigma de memoria que alterna entre fases activas e inactivas: durante las fases de actividad del usuario, el sistema realiza un diálogo en tiempo real y de baja latencia utilizando una recuperación ligera sobre los recuerdos y el contexto existentes; mientras que durante las fases de inactividad del usuario, lleva a cabo una extracción, consolidación y mantenimiento de recuerdos más intensivos desde el punto de vista computacional a lo largo de sesiones de conversación completas. Este diseño minimiza la latencia y al mismo tiempo mantiene la personalización a largo plazo bajo las estrictas limitaciones del hardware integrado. También presentamos un punto de referencia de AI Companion diseñado para evaluar de manera integral AI Companion tanto en su calidad de conversación como en sus capacidades de memoria. En nuestros experimentos, descubrimos que nuestro sistema (utilizando un modelo muy débil: Qwen2.5-7B-Instruct quantized int4) supera al LLM sin formato equivalente sin memoria en la mayoría de las métricas, y tiene un rendimiento comparable al de GPT-3.5 con una ventana de contexto de 16k.
Publicado originalmente en export.arxiv.org el 13 de enero de 2026.
Ver fuente original
