Resumen:Evaluar agentes de IA en puntos de referencia integrales es costoso porque cada evaluación requiere implementaciones interactivas con el uso de herramientas y razonamiento de varios pasos. Estudiamos si los subconjuntos de tareas pequeños pueden preservar las clasificaciones de los agentes a un costo sustancialmente menor. A diferencia de los puntos de referencia del modelo de lenguaje estático, la evaluación del agente está sujeta a cambios de distribución impulsados por el andamio, ya que el rendimiento depende del marco que envuelve el modelo subyacente. A través de ocho puntos de referencia, 33 andamios de agentes y más de 70 configuraciones de modelos, encontramos que la predicción de la puntuación absoluta se degrada con este cambio, mientras que la predicción del orden de clasificación permanece estable. Explotando esta asimetría, proponemos un protocolo simple sin optimización: evaluar nuevos agentes solo en tareas con tasas de aprobación históricas intermedias (30-70%). Este filtro de dificultad de rango medio, motivado por la teoría de respuesta al ítem, reduce la cantidad de tareas de evaluación entre un 44% y un 70% mientras mantiene una alta fidelidad de rango bajo andamios y cambios temporales. Proporciona clasificaciones más confiables que el muestreo aleatorio, que exhibe una alta variación entre semillas y supera la selección codiciosa de tareas bajo cambio de distribución. Estos resultados sugieren que una clasificación confiable en las tablas de clasificación no requiere una evaluación de referencia completa.
Publicado originalmente en export.arxiv.org el 25 de marzo de 2026.
Ver fuente original
