Resumen:Atestiguados por los avances recientes en el aprovechamiento de LLM para la codificación y la comprensión multimodal, presentamos WebGen-V, un nuevo punto de referencia y marco para la generación de instrucción a HTML que mejora tanto la calidad de los datos como la granularidad de la evaluación. WebGen-V aporta tres innovaciones clave: (1) un marco de rastreo agente ilimitado y extensible que recopila continuamente páginas web del mundo real y puede aprovecharse para aumentar los puntos de referencia existentes; (2) una representación de datos estructurada por secciones que integra metadatos, capturas de pantalla de la interfaz de usuario localizadas y activos de texto e imagen con formato JSON, alineación explícita entre contenido, diseño y componentes visuales para una supervisión multimodal detallada; y (3) un protocolo de evaluación multimodal a nivel de sección que alinea el texto, el diseño y los elementos visuales para una evaluación de alta granularidad. Experimentos con LLM de última generación y estudios de ablación validan la efectividad de nuestros datos estructurados y evaluación por secciones, así como la contribución de cada componente. Hasta donde sabemos, WebGen-V es el primer trabajo que permite el rastreo y la evaluación agentes de alta granularidad para la generación de instrucciones a HTML, proporcionando un canal unificado desde la adquisición de datos del mundo real y la generación de páginas web hasta la evaluación multimodal estructurada.
Publicado originalmente en export.arxiv.org el 19 de octubre de 2025.
Ver fuente original
