EvoTest: Aprendizaje evolutivo en tiempo de prueba para sistemas agentes de mejora automática

Resumen: Una limitación fundamental de los agentes de IA actuales es su incapacidad para aprender habilidades complejas sobre la marcha en el momento de la prueba, comportándose a menudo como “pasantes inteligentes pero despistados” en entornos novedosos. Esto limita gravemente su utilidad práctica. Para medir e impulsar sistemáticamente el progreso en este desafío, primero presentamos el punto de referencia Jericho Test-Time Learning (J-TTL). J-TTL es una nueva configuración de evaluación en la que un agente debe jugar el mismo juego durante varios episodios consecutivos, intentando mejorar su rendimiento de un episodio al siguiente. En J-TTL, encontramos que los métodos de adaptación existentes como la reflexión, la memoria o el aprendizaje por refuerzo tienen dificultades. Para abordar los desafíos que plantea nuestro punto de referencia, presentamos EvoTest, un marco de aprendizaje evolutivo en tiempo de prueba que mejora un agente sin ningún ajuste ni gradientes, al hacer evolucionar todo el sistema de agente después de cada episodio. EvoTest tiene dos roles: el Agente Actor, que juega el juego, y el Agente Evolver, que analiza la transcripción del episodio para proponer una configuración revisada para la próxima ejecución. Esta configuración reescribe el mensaje, actualiza la memoria registrando opciones de acción de estado efectivas, ajusta los hiperparámetros y aprende las rutinas de uso de la herramienta. En nuestro punto de referencia J-TTL, EvoTest aumenta constantemente el rendimiento, superando no solo las líneas base de reflexión y memoria, sino también los métodos de ajuste fino en línea más complejos. Cabe destacar que nuestro método es el único capaz de ganar dos juegos (Detective y Biblioteca), mientras que todas las líneas de base no logran ganar ninguno.

Publicado originalmente en export.arxiv.org el 15 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

LG lanza una oferta para construir una infraestructura de IA de extremo a extremo

Afinidad de Llama: un modelo de unión de antígeno de anticuerpo predictivo que integra secuencias de anticuerpos con arquitectura de la red troncal LLAMA3

Aprendizaje seguro y eficiente en contexto a través del control de riesgos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido