 Resumen:La evaluación actual de los agentes web se reduce en gran medida a métricas binarias de éxito o conformidad con una única trayectoria de referencia, ignorando la diversidad estructural presente en los conjuntos de datos de referencia. Presentamos WebGraphEval, un marco que abstrae trayectorias de múltiples agentes en un gráfico de acción unificado y ponderado. Esta representación es directamente compatible con puntos de referencia como WebArena, aprovechando las carreras de tablas de clasificación y las trayectorias recién recopiladas sin modificar los entornos. El marco codifica canónicamente acciones, fusiona comportamientos recurrentes y aplica análisis estructurales que incluyen la propagación de recompensas y estadísticas de ventaja ponderadas por el éxito. Las evaluaciones de miles de trayectorias realizadas por seis agentes web muestran que la abstracción del gráfico captura regularidades entre modelos, resalta la redundancia y la ineficiencia e identifica puntos de decisión críticos que las métricas basadas en resultados pasan por alto. Al enmarcar la interacción web como datos estructurados en gráficos, WebGraphEval establece una metodología general para la evaluación de agentes web de rutas múltiples, entre agentes y consciente de la eficiencia.
Resumen:La evaluación actual de los agentes web se reduce en gran medida a métricas binarias de éxito o conformidad con una única trayectoria de referencia, ignorando la diversidad estructural presente en los conjuntos de datos de referencia. Presentamos WebGraphEval, un marco que abstrae trayectorias de múltiples agentes en un gráfico de acción unificado y ponderado. Esta representación es directamente compatible con puntos de referencia como WebArena, aprovechando las carreras de tablas de clasificación y las trayectorias recién recopiladas sin modificar los entornos. El marco codifica canónicamente acciones, fusiona comportamientos recurrentes y aplica análisis estructurales que incluyen la propagación de recompensas y estadísticas de ventaja ponderadas por el éxito. Las evaluaciones de miles de trayectorias realizadas por seis agentes web muestran que la abstracción del gráfico captura regularidades entre modelos, resalta la redundancia y la ineficiencia e identifica puntos de decisión críticos que las métricas basadas en resultados pasan por alto. Al enmarcar la interacción web como datos estructurados en gráficos, WebGraphEval establece una metodología general para la evaluación de agentes web de rutas múltiples, entre agentes y consciente de la eficiencia.
Publicado originalmente en export.arxiv.org el 22 de octubre de 2025.
Ver fuente original

 
 
			 
							 
							