Detección de fallas de tuberías a través del análisis de grano fino de los agentes web

Resumen: Los agentes web alimentados por grandes modelos de lenguaje (LLM) pueden realizar tareas complejas de varios pasos en entornos web dinámicos. Sin embargo, las evaluaciones actuales se centran principalmente en el éxito general al tiempo que pasan por alto los errores intermedios. Esto limita la visión de los modos de falla y dificulta la mejora sistemática. Este trabajo analiza los puntos de referencia existentes y destaca la falta de herramientas de diagnóstico de grano fino. Para abordar esta brecha, proponemos un marco de evaluación modular que descompone las tuberías de agentes en etapas interpretables para un análisis detallado de errores. Utilizando el marco Seeact y el conjunto de datos Mind2Web como un estudio de caso, mostramos cómo este enfoque revela debilidades procesables perdidas por las métricas estándar, allanando el camino para agentes web más robustos y generalizables.

Publicado Originalme en export.arxiv.org El 18 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Máquinas virtuosas: hacia la ciencia general artificial

Monitoreo en línea basado en gráficos de los estados de conductor de trenes a través de características faciales y esqueléticas

Benchmarking Vector, gráfico y tuberías de generación aumentada de recuperación híbrida (RAG) para redes de acceso de radio abierto (Oran)

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido