Resumen: Los agentes web autónomos impulsados por grandes modelos de lenguaje (LLM) muestran un gran potencial para realizar tareas orientadas a objetivos, como la recuperación de información, la generación de informes y las transacciones en línea. Estos agentes marcan un paso clave hacia el razonamiento incorporado práctico en entornos web abiertos. Sin embargo, los enfoques existentes siguen siendo limitados en cuanto a profundidad y eficiencia del razonamiento: los métodos lineales básicos fallan en el razonamiento de varios pasos y carecen de un retroceso efectivo, mientras que otras estrategias de búsqueda son de grano grueso y computacionalmente costosas. Presentamos Branch-and-Browse, un marco de trabajo de agente web detallado que unifica el razonamiento estructurado, la memoria contextual y la ejecución eficiente. (i) emplea una gestión explícita de subtareas con exploración estructurada en árbol para un razonamiento controlable de múltiples ramas, (ii) inicia la exploración a través de una reproducción eficiente del estado web con razonamiento en segundo plano y (iii) aprovecha una memoria de acciones de página para compartir acciones exploradas dentro y entre sesiones. En el benchmark WebArena, Branch-and-Browse logra una tasa de éxito de tareas del 35,8% y reduce el tiempo de ejecución hasta un 40,4% en relación con los métodos más modernos. Estos resultados demuestran que Branch-and-Browse es un marco confiable y eficiente para agentes web basados en LLM.
Publicado originalmente en export.arxiv.org el 23 de octubre de 2025.
Ver fuente original
