En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Webscraper: aproveche los modelos de lenguajes grandes multimodales para el web scraping de contenido indexado

Webscraper: aproveche los modelos de lenguajes grandes multimodales para el web scraping de contenido indexado

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El web scraping moderno lucha con sitios web dinámicos e interactivos que requieren más que un análisis de HTML estático. Los métodos actuales suelen ser frágiles y requieren una personalización manual para cada sitio. Para abordar esto, presentamos Webscraper, un marco diseñado para manejar los desafíos de las aplicaciones web modernas y dinámicas. Aprovecha un modelo de lenguaje grande multimodal (MLLM) para navegar de forma autónoma por interfaces interactivas, invocar herramientas especializadas y realizar extracción de datos estructurados en entornos donde los raspadores tradicionales son ineficaces. Webscraper utiliza un procedimiento estructurado de cinco etapas y un conjunto de herramientas personalizadas para navegar y extraer datos de sitios web siguiendo la arquitectura común de “índice y contenido”. Nuestros experimentos, realizados en seis sitios web de noticias, demuestran que el marco Webscraper completo, equipado con nuestras indicaciones de guía y herramientas especializadas, logra una mejora significativa en la precisión de la extracción con respecto al uso de computadora del agente básico Anthropic. También aplicamos el marco a plataformas de comercio electrónico para validar su generalización.

Publicado originalmente en export.arxiv.org el 31 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web