En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Detección de fallas de tuberías a través del análisis de grano fino de los agentes web

Detección de fallas de tuberías a través del análisis de grano fino de los agentes web

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los agentes web alimentados por grandes modelos de lenguaje (LLM) pueden realizar tareas complejas de varios pasos en entornos web dinámicos. Sin embargo, las evaluaciones actuales se centran principalmente en el éxito general al tiempo que pasan por alto los errores intermedios. Esto limita la visión de los modos de falla y dificulta la mejora sistemática. Este trabajo analiza los puntos de referencia existentes y destaca la falta de herramientas de diagnóstico de grano fino. Para abordar esta brecha, proponemos un marco de evaluación modular que descompone las tuberías de agentes en etapas interpretables para un análisis detallado de errores. Utilizando el marco Seeact y el conjunto de datos Mind2Web como un estudio de caso, mostramos cómo este enfoque revela debilidades procesables perdidas por las métricas estándar, allanando el camino para agentes web más robustos y generalizables.

Publicado Originalme en export.arxiv.org El 18 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web