Webscraper: aproveche los modelos de lenguajes grandes multimodales para el web scraping de contenido indexado

Resumen: El web scraping moderno lucha con sitios web dinámicos e interactivos que requieren más que un análisis de HTML estático. Los métodos actuales suelen ser frágiles y requieren una personalización manual para cada sitio. Para abordar esto, presentamos Webscraper, un marco diseñado para manejar los desafíos de las aplicaciones web modernas y dinámicas. Aprovecha un modelo de lenguaje grande multimodal (MLLM) para navegar de forma autónoma por interfaces interactivas, invocar herramientas especializadas y realizar extracción de datos estructurados en entornos donde los raspadores tradicionales son ineficaces. Webscraper utiliza un procedimiento estructurado de cinco etapas y un conjunto de herramientas personalizadas para navegar y extraer datos de sitios web siguiendo la arquitectura común de “índice y contenido”. Nuestros experimentos, realizados en seis sitios web de noticias, demuestran que el marco Webscraper completo, equipado con nuestras indicaciones de guía y herramientas especializadas, logra una mejora significativa en la precisión de la extracción con respecto al uso de computadora del agente básico Anthropic. También aplicamos el marco a plataformas de comercio electrónico para validar su generalización.

Publicado originalmente en export.arxiv.org el 31 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

AgentsGen: LLM de múltiples agentes en el bucle para la colaboración semántica y la generación de datos sintéticos

Contrapesos y complementariedades: la convergencia de la IA y la cadena de bloques que impulsan un futuro descentralizado

Steve-Evolving: autoevolución encarnada en un mundo abierto a través de un diagnóstico detallado y una destilación de conocimientos de doble vía

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido