AUGUSTUS: un sistema de agentes multimodal impulsado por LLM con memoria de usuario contextualizada

Resumen: Aprovechando el éxito de los LLM con generación aumentada de recuperación (RAG), ha habido un interés creciente en aumentar los sistemas de agentes con bases de datos de memoria externa. Sin embargo, los sistemas existentes se centran en almacenar información textual en su memoria, ignorando la importancia de las señales multimodales. Motivados por la naturaleza multimodal de la memoria humana, presentamos AUGUSTUS, un sistema de agentes multimodal alineado con las ideas de la memoria humana en la ciencia cognitiva. Técnicamente, nuestro sistema consta de 4 etapas conectadas en un bucle: (i) codificar: comprender las entradas; (ii) almacenar en la memoria: guardar información importante; (iii) recuperar: buscar contexto relevante de la memoria; y (iv) actuar: realizar la tarea. A diferencia de los sistemas existentes que utilizan bases de datos vectoriales, proponemos conceptualizar la información en etiquetas semánticas y asociar las etiquetas con su contexto para almacenarlas en una memoria contextual multimodal estructurada en gráficos para una recuperación eficiente basada en conceptos. Nuestro sistema supera el enfoque RAG multimodal tradicional, al mismo tiempo que es 3,5 veces más rápido para la clasificación ImageNet y supera a MemGPT en el punto de referencia MSC.

Publicado originalmente en export.arxiv.org el 19 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Predicción eficiente de la escala Pass@k en modelos de lenguaje grandes

DMA: Alineación RAG en línea con retroalimentación humana

SCRIBE: Supervisión estructurada de nivel medio para modelos de lenguaje que utilizan herramientas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido