Resumen: Los agentes del modelo de lenguaje grande (LLM) se están volviendo competentes en tareas web sencillas, como abrir una página de artículo o enviar un formulario, pero aún luchan con objetivos que requieren una navegación de largo horizonte, extracción de información a gran escala y razonamiento bajo restricciones. Presentamos WebDART, un marco general que permite que un único LLM maneje tareas tan complejas. WebDART (i) descompone dinámicamente cada objetivo en tres subtareas enfocadas: navegación, extracción de información y ejecución, de modo que el modelo se concentra en una habilidad a la vez, y (ii) replanifica continuamente la descomposición a medida que se revelan nuevas páginas web, aprovechando los filtros o atajos recién descubiertos y evitando la exploración redundante. Evaluado en WebChoreArena, WebDART aumenta las tasas de éxito hasta en 13,7 puntos porcentuales con respecto a los agentes SOTA anteriores, al tiempo que iguala su rendimiento en la suite WebArena, más sencilla, y completa tareas con hasta 14,7 pasos de navegación menos.
Publicado originalmente en export.arxiv.org el 8 de octubre de 2025.
Ver fuente original