Resumen: El web scraping moderno lucha con sitios web dinámicos e interactivos que requieren más que un análisis de HTML estático. Los métodos actuales suelen ser frágiles y requieren una personalización manual para cada sitio. Para abordar esto, presentamos Webscraper, un marco diseñado para manejar los desafíos de las aplicaciones web modernas y dinámicas. Aprovecha un modelo de lenguaje grande multimodal (MLLM) para navegar de forma autónoma por interfaces interactivas, invocar herramientas especializadas y realizar extracción de datos estructurados en entornos donde los raspadores tradicionales son ineficaces. Webscraper utiliza un procedimiento estructurado de cinco etapas y un conjunto de herramientas personalizadas para navegar y extraer datos de sitios web siguiendo la arquitectura común de “índice y contenido”. Nuestros experimentos, realizados en seis sitios web de noticias, demuestran que el marco Webscraper completo, equipado con nuestras indicaciones de guía y herramientas especializadas, logra una mejora significativa en la precisión de la extracción con respecto al uso de computadora del agente básico Anthropic. También aplicamos el marco a plataformas de comercio electrónico para validar su generalización.
Publicado originalmente en export.arxiv.org el 31 de marzo de 2026.
Ver fuente original
