CATArena: Evaluación de Agentes LLM a través de Torneos Iterativos

Resumen: Los agentes del Large Language Model (LLM) han evolucionado desde la generación de texto básico hasta la realización de tareas complejas de forma autónoma a través de la interacción con herramientas externas. Sin embargo, los puntos de referencia actuales evalúan principalmente el desempeño de un extremo a otro en escenarios fijos, restringiendo la evaluación a habilidades específicas y sufriendo una saturación de puntajes y una creciente dependencia de las anotaciones de expertos a medida que mejoran las capacidades de los agentes. En este trabajo, enfatizamos la importancia de la capacidad de aprendizaje, incluida tanto la superación personal como el aprendizaje entre pares, como motor central para la evolución de los agentes hacia una inteligencia a nivel humano. Proponemos un marco de aprendizaje entre pares iterativo y competitivo, que permite a los agentes refinar y optimizar sus estrategias a través de interacciones y retroalimentación repetidas, evaluando así sistemáticamente sus capacidades de aprendizaje. Para abordar el problema de la saturación de puntajes en los puntos de referencia actuales, presentamos CATArena, una plataforma de evaluación estilo torneo que presenta cuatro juegos de mesa y cartas diversos con puntuación abierta. Al proporcionar tareas sin límites de puntuación superiores explícitos, CATArena permite una evaluación continua y dinámica de las capacidades de los agentes que avanzan rápidamente. Los resultados y análisis experimentales que involucran agentes de código mínimos y comerciales demuestran que CATArena proporciona evaluaciones comparativas confiables, estables y escalables para las habilidades centrales de los agentes, particularmente la capacidad de aprendizaje y la codificación de estrategias.

Publicado originalmente en export.arxiv.org el 2 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

PREFINE: Generación de historias personalizadas mediante críticas de usuarios simuladas y generación de rúbricas específicas del usuario

Una revisión del alcance de las perspectivas éticas sobre la antropomorfización de agentes conversacionales basados ​​en modelos de lenguaje grande

Razonamiento sobre un presupuesto: una encuesta de cómputo de tiempo de prueba adaptable y controlable en LLMS

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

Una revisión del alcance de las perspectivas éticas sobre la antropomorfización de agentes conversacionales basados en modelos de lenguaje grande