BrowseComp-$V^3$: un punto de referencia visual, vertical y verificable para agentes de navegación multimodal

Resumen: Los modelos de lenguajes grandes multimodales (MLLM), equipados con capacidades de uso de herramientas y planificación cada vez más avanzadas, están evolucionando hacia agentes autónomos capaces de realizar navegación web multimodal y búsqueda profunda en entornos de mundo abierto. Sin embargo, los puntos de referencia existentes para la navegación multimodal siguen siendo limitados en cuanto a complejidad de las tareas, accesibilidad de la evidencia y granularidad de la evaluación, lo que dificulta evaluaciones integrales y reproducibles de las capacidades de búsqueda profunda. Para abordar estas limitaciones, presentamos BrowseComp-$V^3$, un punto de referencia novedoso que consta de 300 preguntas desafiantes y cuidadosamente seleccionadas que abarcan diversos dominios. El punto de referencia enfatiza el razonamiento de múltiples saltos profundo, multinivel y multimodal, donde la evidencia crítica se entrelaza a través de modalidades textuales y visuales dentro y entre páginas web. Es estrictamente necesario que todas las pruebas de respaldo puedan buscarse públicamente, lo que garantiza la equidad y la reproducibilidad. Más allá de la precisión de la respuesta final, incorporamos un mecanismo de evaluación de procesos basado en subobjetivos, validado por expertos, que permite un análisis detallado de comportamientos de razonamiento intermedio y una caracterización sistemática de los límites de capacidad. Además, proponemos OmniSeeker, un marco de agente de navegación multimodal unificado que integra diversas herramientas de percepción visual y búsqueda web. Experimentos exhaustivos demuestran que incluso los modelos más modernos logran solo un 36 % de precisión en nuestro punto de referencia, lo que revela cuellos de botella críticos en la integración de información multimodal y la percepción detallada. Nuestros resultados resaltan una brecha fundamental entre las capacidades del modelo actual y la búsqueda profunda multimodal sólida en entornos del mundo real.

Publicado originalmente en export.arxiv.org el 15 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Vale la pena luchar por el MIT

Géminis 2.5: Empujar la frontera con razonamiento avanzado, multimodalidad, contexto largo y capacidades de agente de próxima generación

(P) rior (d) yna (f) bajo: construcción de flujo de trabajo dinámico a priori mediante colaboración de múltiples agentes

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido