Resumen: Los agentes web de LLM ahora navegan y toman medidas en la web abierta, sin embargo, las evaluaciones de agentes actuales están limitadas a entornos de arena o tareas artificiales. Presentamos a Browserarina, una plataforma de evaluación de agentes de red abierta en vivo que recopila tareas enviadas por el usuario, ejecuta comparaciones de cabeza a cabeza de estilo Arena y utiliza retroalimentación humana a nivel de paso a los modos de falla de la superficie. Recopilando y analizando anotaciones a nivel de paso en las trazas del agente, identificamos tres modos de falla consistentes: resolución de captcha, eliminación de pancartas emergentes y navegación directa a URL. Al construir conjuntos de datos específicos para estudiar más a fondo estas tareas, descubrimos variaciones en cómo los diferentes modelos de lenguaje navegan por estos modos de falla. Encontramos, por ejemplo, que O4-Mini despliega una variedad más amplia de estrategias para eludir la resolución de Captcha que otros modelos y Deepseek-R1 constantemente engaña a los usuarios sobre la resolución de Captcha. Nuestros hallazgos surgen tanto la diversidad como la fragilidad de los agentes web actuales. En términos más generales, nuestra metodología de evaluación comparativa proporciona un enfoque para evaluar y comprender los modos de falla del agente web a escala.
Publicado Originalme en export.arxiv.org El 5 de octubre de 2025.
Ver Fuente Original