Resumen: Los avances recientes en agentes LLM basados en navegador se han mostrado prometedores para automatizar tareas que van desde el simple llenado de formularios hasta reservas de hoteles o compras en línea. Los puntos de referencia actuales miden el rendimiento de los agentes en entornos controlados, como contenedores o redes estables, donde los sitios web se comportan de forma determinista. Sin embargo, en el mundo real, los usuarios acceden a sitios web a través de redes y conexiones HTTPS que introducen inestabilidad desde múltiples fuentes: problemas del lado del cliente, del lado del servidor o fallas más amplias del sistema. Además, los sitios web activos son propensos a ataques web como Cross-Site Scripting, así como a modificaciones generales del sitio que pueden provocar ventanas emergentes inesperadas o maliciosas o una funcionalidad inadecuada. Para abordar esta brecha, presentamos WAREX: Evaluación de confiabilidad del agente web según puntos de referencia existentes. Medimos el impacto de WAREX en tres puntos de referencia populares: WebArena, WebVoyager y REAL. Nuestros experimentos muestran que la introducción de WAREX conduce a caídas significativas en las tasas de éxito de las tareas, lo que destaca la solidez limitada de los agentes de última generación.
Publicado Originalme en export.arxiv.org El 6 de octubre de 2025.
Ver Fuente Original