En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Explorar con memoria a largo plazo: un marco de aprendizaje por refuerzo basado en LLM multimodal y de referencia para la exploración incorporada

Explorar con memoria a largo plazo: un marco de aprendizaje por refuerzo basado en LLM multimodal y de referencia para la exploración incorporada

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Un agente encarnado ideal debe poseer capacidades de aprendizaje permanente para manejar tareas complejas y de largo plazo, permitiendo una operación continua en entornos generales. Esto no sólo requiere que el agente realice con precisión tareas determinadas, sino también que aproveche la memoria episódica a largo plazo para optimizar la toma de decisiones. Sin embargo, las principales tareas incorporadas de una sola vez se centran principalmente en los resultados de la finalización de la tarea, descuidando el proceso crucial de exploración y utilización de la memoria. Para abordar esto, proponemos la Exploración Corporizada de la Memoria a Largo Plazo (LMEE), que tiene como objetivo unificar la cognición exploratoria del agente y los comportamientos de toma de decisiones para promover la vida. esta URL http Construya además un conjunto de datos y un punto de referencia correspondiente, LMEE-Bench, que incorpore navegación de múltiples objetivos y respuesta a preguntas basadas en la memoria para evaluar de manera integral tanto el proceso como el resultado de la exploración incorporada. Para mejorar la recuperación de la memoria del agente y las capacidades de exploración proactiva, proponemos MemoryExplorer, un método novedoso que afina un modelo de lenguaje grande multimodal a través del aprendizaje por refuerzo para fomentar la consulta activa de la memoria. Al incorporar una función de recompensa multitarea que incluye predicción de acciones, selección de fronteras y respuesta a preguntas, nuestro modelo logra una exploración proactiva. Amplios experimentos con modelos de exploración incorporados de última generación demuestran que nuestro enfoque logra ventajas significativas en tareas incorporadas a largo plazo.

Publicado originalmente en export.arxiv.org el 18 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web