Resumen: Los agentes del Large Language Model (LLM) han evolucionado desde la generación de texto básico hasta la realización de tareas complejas de forma autónoma a través de la interacción con herramientas externas. Sin embargo, los puntos de referencia actuales evalúan principalmente el desempeño de un extremo a otro en escenarios fijos, restringiendo la evaluación a habilidades específicas y sufriendo una saturación de puntajes y una creciente dependencia de las anotaciones de expertos a medida que mejoran las capacidades de los agentes. En este trabajo, enfatizamos la importancia de la capacidad de aprendizaje, incluida tanto la superación personal como el aprendizaje entre pares, como motor central para la evolución de los agentes hacia una inteligencia a nivel humano. Proponemos un marco de aprendizaje entre pares iterativo y competitivo, que permite a los agentes refinar y optimizar sus estrategias a través de interacciones y retroalimentación repetidas, evaluando así sistemáticamente sus capacidades de aprendizaje. Para abordar el problema de la saturación de puntajes en los puntos de referencia actuales, presentamos CATArena, una plataforma de evaluación estilo torneo que presenta cuatro juegos de mesa y cartas diversos con puntuación abierta. Al proporcionar tareas sin límites de puntuación superiores explícitos, CATArena permite una evaluación continua y dinámica de las capacidades de los agentes que avanzan rápidamente. Los resultados y análisis experimentales que involucran agentes de código mínimos y comerciales demuestran que CATArena proporciona evaluaciones comparativas confiables, estables y escalables para las habilidades centrales de los agentes, particularmente la capacidad de aprendizaje y la codificación de estrategias.
Publicado originalmente en export.arxiv.org el 2 de noviembre de 2025.
Ver fuente original
