Resumen:Desarrollar agentes autónomos para tareas basadas en la web es un desafío central en la IA. Si bien los agentes del modelo de lenguaje grande (LLM) pueden interpretar solicitudes complejas de los usuarios, a menudo operan como cajas negras, lo que dificulta diagnosticar por qué fallan o cómo planifican. Este artículo aborda esta brecha al tratar formalmente las tareas web como procesos secuenciales de toma de decisiones. Introducimos una taxonomía que mapea las arquitecturas de agentes modernas con los paradigmas de planificación tradicionales: agentes paso a paso para la búsqueda primero en amplitud (BFS), agentes de búsqueda en árbol para la búsqueda en árbol mejor primero y agentes de plan completo avanzado para la búsqueda en profundidad primero (DFS). Este marco permite un diagnóstico basado en principios de fallas del sistema, como la deriva del contexto y la descomposición incoherente de tareas. Para evaluar estos comportamientos, proponemos cinco métricas de evaluación novedosas que evalúan la calidad de la trayectoria más allá de las simples tasas de éxito. Respaldamos este análisis con un nuevo conjunto de datos de 794 trayectorias etiquetadas por humanos del punto de referencia WebArena. Finalmente, validamos nuestro marco de evaluación comparando un agente paso a paso de referencia con una implementación novedosa de plan completo por adelantado. Nuestros resultados revelan que, si bien el agente Paso a Paso se alinea más estrechamente con las trayectorias de oro humano (38 % de éxito general), el agente de Plan Completo Avanzado sobresale en medidas técnicas como la precisión de elementos (89 %), lo que demuestra la necesidad de nuestras métricas propuestas para seleccionar arquitecturas de agente apropiadas basadas en restricciones de aplicaciones específicas.
Publicado originalmente en export.arxiv.org el 15 de marzo de 2026.
Ver fuente original
