En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Warex: Evaluación de confiabilidad del agente web en puntos de referencia existentes

Warex: Evaluación de confiabilidad del agente web en puntos de referencia existentes

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los avances recientes en agentes LLM basados ​​en navegador se han mostrado prometedores para automatizar tareas que van desde el simple llenado de formularios hasta reservas de hoteles o compras en línea. Los puntos de referencia actuales miden el rendimiento de los agentes en entornos controlados, como contenedores o redes estables, donde los sitios web se comportan de forma determinista. Sin embargo, en el mundo real, los usuarios acceden a sitios web a través de redes y conexiones HTTPS que introducen inestabilidad desde múltiples fuentes: problemas del lado del cliente, del lado del servidor o fallas más amplias del sistema. Además, los sitios web activos son propensos a ataques web como Cross-Site Scripting, así como a modificaciones generales del sitio que pueden provocar ventanas emergentes inesperadas o maliciosas o una funcionalidad inadecuada. Para abordar esta brecha, presentamos WAREX: Evaluación de confiabilidad del agente web según puntos de referencia existentes. Medimos el impacto de WAREX en tres puntos de referencia populares: WebArena, WebVoyager y REAL. Nuestros experimentos muestran que la introducción de WAREX conduce a caídas significativas en las tasas de éxito de las tareas, lo que destaca la solidez limitada de los agentes de última generación.

Publicado Originalme en export.arxiv.org El 6 de octubre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web