Explorar con memoria a largo plazo: un marco de aprendizaje por refuerzo basado en LLM multimodal y de referencia para la exploración incorporada

Resumen: Un agente encarnado ideal debe poseer capacidades de aprendizaje permanente para manejar tareas complejas y de largo plazo, permitiendo una operación continua en entornos generales. Esto no sólo requiere que el agente realice con precisión tareas determinadas, sino también que aproveche la memoria episódica a largo plazo para optimizar la toma de decisiones. Sin embargo, las principales tareas incorporadas de una sola vez se centran principalmente en los resultados de la finalización de la tarea, descuidando el proceso crucial de exploración y utilización de la memoria. Para abordar esto, proponemos la Exploración Corporizada de la Memoria a Largo Plazo (LMEE), que tiene como objetivo unificar la cognición exploratoria del agente y los comportamientos de toma de decisiones para promover la vida. esta URL http Construya además un conjunto de datos y un punto de referencia correspondiente, LMEE-Bench, que incorpore navegación de múltiples objetivos y respuesta a preguntas basadas en la memoria para evaluar de manera integral tanto el proceso como el resultado de la exploración incorporada. Para mejorar la recuperación de la memoria del agente y las capacidades de exploración proactiva, proponemos MemoryExplorer, un método novedoso que afina un modelo de lenguaje grande multimodal a través del aprendizaje por refuerzo para fomentar la consulta activa de la memoria. Al incorporar una función de recompensa multitarea que incluye predicción de acciones, selección de fronteras y respuesta a preguntas, nuestro modelo logra una exploración proactiva. Amplios experimentos con modelos de exploración incorporados de última generación demuestran que nuestro enfoque logra ventajas significativas en tareas incorporadas a largo plazo.

Publicado originalmente en export.arxiv.org el 18 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

GDBA revisitado: desatando el poder de la búsqueda guiada local de la optimización de restricciones distribuidas

Aprendizaje de interacción de rompecabezas de agente para mejorar la percepción visual y el razonamiento en los modelos en idioma de la visión

La experiencia contextual de la experiencia para la superación personal de los agentes del lenguaje

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido