Banco WebGen-V: representación estructurada para mejorar el diseño visual en generación y evaluación web basada en LLM

Resumen:Atestiguados por los avances recientes en el aprovechamiento de LLM para la codificación y la comprensión multimodal, presentamos WebGen-V, un nuevo punto de referencia y marco para la generación de instrucción a HTML que mejora tanto la calidad de los datos como la granularidad de la evaluación. WebGen-V aporta tres innovaciones clave: (1) un marco de rastreo agente ilimitado y extensible que recopila continuamente páginas web del mundo real y puede aprovecharse para aumentar los puntos de referencia existentes; (2) una representación de datos estructurada por secciones que integra metadatos, capturas de pantalla de la interfaz de usuario localizadas y activos de texto e imagen con formato JSON, alineación explícita entre contenido, diseño y componentes visuales para una supervisión multimodal detallada; y (3) un protocolo de evaluación multimodal a nivel de sección que alinea el texto, el diseño y los elementos visuales para una evaluación de alta granularidad. Experimentos con LLM de última generación y estudios de ablación validan la efectividad de nuestros datos estructurados y evaluación por secciones, así como la contribución de cada componente. Hasta donde sabemos, WebGen-V es el primer trabajo que permite el rastreo y la evaluación agentes de alta granularidad para la generación de instrucciones a HTML, proporcionando un canal unificado desde la adquisición de datos del mundo real y la generación de páginas web hasta la evaluación multimodal estructurada.

Publicado originalmente en export.arxiv.org el 19 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Mass: escala de simulación de múltiples agentes para la construcción de cartera

Trajevo: Diseño de Heuristics de predicción de trayectoria a través de la evolución dirigida por LLM

Evaluación entre dominios del razonamiento de cadena de pensamiento multimodal de diferentes conjuntos de datos en el marco de Amazon CoT

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido