En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->EvoTest: Aprendizaje evolutivo en tiempo de prueba para sistemas agentes de mejora automática

EvoTest: Aprendizaje evolutivo en tiempo de prueba para sistemas agentes de mejora automática

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Una limitación fundamental de los agentes de IA actuales es su incapacidad para aprender habilidades complejas sobre la marcha en el momento de la prueba, comportándose a menudo como “pasantes inteligentes pero despistados” en entornos novedosos. Esto limita gravemente su utilidad práctica. Para medir e impulsar sistemáticamente el progreso en este desafío, primero presentamos el punto de referencia Jericho Test-Time Learning (J-TTL). J-TTL es una nueva configuración de evaluación en la que un agente debe jugar el mismo juego durante varios episodios consecutivos, intentando mejorar su rendimiento de un episodio al siguiente. En J-TTL, encontramos que los métodos de adaptación existentes como la reflexión, la memoria o el aprendizaje por refuerzo tienen dificultades. Para abordar los desafíos que plantea nuestro punto de referencia, presentamos EvoTest, un marco de aprendizaje evolutivo en tiempo de prueba que mejora un agente sin ningún ajuste ni gradientes, al hacer evolucionar todo el sistema de agente después de cada episodio. EvoTest tiene dos roles: el Agente Actor, que juega el juego, y el Agente Evolver, que analiza la transcripción del episodio para proponer una configuración revisada para la próxima ejecución. Esta configuración reescribe el mensaje, actualiza la memoria registrando opciones de acción de estado efectivas, ajusta los hiperparámetros y aprende las rutinas de uso de la herramienta. En nuestro punto de referencia J-TTL, EvoTest aumenta constantemente el rendimiento, superando no solo las líneas base de reflexión y memoria, sino también los métodos de ajuste fino en línea más complejos. Cabe destacar que nuestro método es el único capaz de ganar dos juegos (Detective y Biblioteca), mientras que todas las líneas de base no logran ganar ninguno.

Publicado originalmente en export.arxiv.org el 15 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web