Warex: Evaluación de confiabilidad del agente web en puntos de referencia existentes

Resumen: Los avances recientes en agentes LLM basados en navegador se han mostrado prometedores para automatizar tareas que van desde el simple llenado de formularios hasta reservas de hoteles o compras en línea. Los puntos de referencia actuales miden el rendimiento de los agentes en entornos controlados, como contenedores o redes estables, donde los sitios web se comportan de forma determinista. Sin embargo, en el mundo real, los usuarios acceden a sitios web a través de redes y conexiones HTTPS que introducen inestabilidad desde múltiples fuentes: problemas del lado del cliente, del lado del servidor o fallas más amplias del sistema. Además, los sitios web activos son propensos a ataques web como Cross-Site Scripting, así como a modificaciones generales del sitio que pueden provocar ventanas emergentes inesperadas o maliciosas o una funcionalidad inadecuada. Para abordar esta brecha, presentamos WAREX: Evaluación de confiabilidad del agente web según puntos de referencia existentes. Medimos el impacto de WAREX en tres puntos de referencia populares: WebArena, WebVoyager y REAL. Nuestros experimentos muestran que la introducción de WAREX conduce a caídas significativas en las tasas de éxito de las tareas, lo que destaca la solidez limitada de los agentes de última generación.

Publicado Originalme en export.arxiv.org El 6 de octubre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

“Nunca construiremos un robot sexual”, dice Mustafa Suleyman

Un sistema de monitoreo de datos de salud pública basado en IA

VisTIRA: cerrar la brecha de modalidad imagen-texto en el razonamiento matemático visual mediante la integración de herramientas estructuradas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido