BROWSERARENA: Evaluación de agentes de LLM en tareas de navegación web del mundo real

Resumen: Los agentes web de LLM ahora navegan y toman medidas en la web abierta, sin embargo, las evaluaciones de agentes actuales están limitadas a entornos de arena o tareas artificiales. Presentamos a Browserarina, una plataforma de evaluación de agentes de red abierta en vivo que recopila tareas enviadas por el usuario, ejecuta comparaciones de cabeza a cabeza de estilo Arena y utiliza retroalimentación humana a nivel de paso a los modos de falla de la superficie. Recopilando y analizando anotaciones a nivel de paso en las trazas del agente, identificamos tres modos de falla consistentes: resolución de captcha, eliminación de pancartas emergentes y navegación directa a URL. Al construir conjuntos de datos específicos para estudiar más a fondo estas tareas, descubrimos variaciones en cómo los diferentes modelos de lenguaje navegan por estos modos de falla. Encontramos, por ejemplo, que O4-Mini despliega una variedad más amplia de estrategias para eludir la resolución de Captcha que otros modelos y Deepseek-R1 constantemente engaña a los usuarios sobre la resolución de Captcha. Nuestros hallazgos surgen tanto la diversidad como la fragilidad de los agentes web actuales. En términos más generales, nuestra metodología de evaluación comparativa proporciona un enfoque para evaluar y comprender los modos de falla del agente web a escala.

Publicado Originalme en export.arxiv.org El 5 de octubre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Seminario web: Del cumplimiento normativo a la soberanía digital: ¿nuevas compensaciones para la protección de datos, la privacidad y la seguridad?

La descarga: Las baterías de los vehículos eléctricos que se están agotando en China y por qué los fatalistas de la IA se están duplicando

Pronosticador AIA: Informe técnico

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido