En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->BrowseComp-$V^3$: un punto de referencia visual, vertical y verificable para agentes de navegación multimodal

BrowseComp-$V^3$: un punto de referencia visual, vertical y verificable para agentes de navegación multimodal

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguajes grandes multimodales (MLLM), equipados con capacidades de uso de herramientas y planificación cada vez más avanzadas, están evolucionando hacia agentes autónomos capaces de realizar navegación web multimodal y búsqueda profunda en entornos de mundo abierto. Sin embargo, los puntos de referencia existentes para la navegación multimodal siguen siendo limitados en cuanto a complejidad de las tareas, accesibilidad de la evidencia y granularidad de la evaluación, lo que dificulta evaluaciones integrales y reproducibles de las capacidades de búsqueda profunda. Para abordar estas limitaciones, presentamos BrowseComp-$V^3$, un punto de referencia novedoso que consta de 300 preguntas desafiantes y cuidadosamente seleccionadas que abarcan diversos dominios. El punto de referencia enfatiza el razonamiento de múltiples saltos profundo, multinivel y multimodal, donde la evidencia crítica se entrelaza a través de modalidades textuales y visuales dentro y entre páginas web. Es estrictamente necesario que todas las pruebas de respaldo puedan buscarse públicamente, lo que garantiza la equidad y la reproducibilidad. Más allá de la precisión de la respuesta final, incorporamos un mecanismo de evaluación de procesos basado en subobjetivos, validado por expertos, que permite un análisis detallado de comportamientos de razonamiento intermedio y una caracterización sistemática de los límites de capacidad. Además, proponemos OmniSeeker, un marco de agente de navegación multimodal unificado que integra diversas herramientas de percepción visual y búsqueda web. Experimentos exhaustivos demuestran que incluso los modelos más modernos logran solo un 36 % de precisión en nuestro punto de referencia, lo que revela cuellos de botella críticos en la integración de información multimodal y la percepción detallada. Nuestros resultados resaltan una brecha fundamental entre las capacidades del modelo actual y la búsqueda profunda multimodal sólida en entornos del mundo real.

Publicado originalmente en export.arxiv.org el 15 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web