Resumen: Los modelos de visión-lenguaje (VLM) han demostrado capacidades generales notables, sin embargo, los agentes incorporados construidos sobre ellos fallan en tareas complejas, a menudo omitiendo pasos críticos, proponiendo acciones no válidas y repitiendo errores. Estas fallas surgen de una brecha fundamental entre los datos de entrenamiento estático de los VLM y la interacción física para las tareas incorporadas. Los VLM pueden aprender un rico conocimiento semántico a partir de datos estáticos, pero carecen de la capacidad de interactuar con el mundo. Para abordar este problema, presentamos ELITE, un marco de agentes incorporado con ganancias {E}xperienciales y transferencias {T}conscientes de la intención que permite a los agentes aprender continuamente de sus propias experiencias de interacción en el entorno y transferir el conocimiento adquirido a tareas procedimentalmente similares. ELITE opera a través de dos mecanismos sinérgicos, textit{es decir,} construcción de conocimiento autorreflexivo y recuperación consciente de la intención. Específicamente, la construcción de conocimiento autorreflexivo extrae estrategias reutilizables de trayectorias de ejecución y mantiene un conjunto de estrategias en evolución a través de operaciones de refinamiento estructuradas. Luego, la recuperación consciente de la intención identifica estrategias relevantes del grupo y las aplica a las tareas actuales. Los experimentos en los benchmarks EB-ALFRED y EB-Habitat muestran que ELITE logra una mejora del rendimiento del 9% y el 5% con respecto a los VLM básicos en el entorno online sin ninguna supervisión. En el entorno supervisado, ELITE generaliza eficazmente a categorías de tareas invisibles, logrando un mejor rendimiento en comparación con los métodos de última generación basados en el entrenamiento. Estos resultados demuestran la eficacia de ELITE para cerrar la brecha entre la comprensión semántica y la ejecución confiable de acciones.
Publicado originalmente en export.arxiv.org el 25 de marzo de 2026.
Ver fuente original
