Resumen: Entre los casos de uso más comunes de la IA moderna es LLM Chat con la búsqueda web habilitada. Sin embargo, no existen evaluaciones directas de la calidad de los agentes de investigación web que controlan la web que cambia continuamente. Presentamos un banco de investigación profunda, que consta de 89 casos de tareas de investigación web de varios pasos de dificultad variable en 8 categorías de tareas diversas, con las respuestas cuidadosamente elaboradas por humanos calificados. Proporcionamos un entorno de “retroversar” con un gran conjunto congelado de páginas web raspadas, y demostramos que los agentes de “retroopears” fuera de línea se desempeñan de manera comparable a los agentes de “web en vivo”, lo que permite evaluaciones confiables de modelos a lo largo del tiempo. Proporcionamos herramientas de agente robustas y andamios para comparar los principales LLM a medida que se lanzan, incluidos modelos de “pensamiento” como O3 y Gemini 2.5 Pro. Incluimos evaluaciones automatizadas de los largos trazas del agente para informar el progreso a lo largo del tiempo en alucinaciones, uso de herramientas y olvido. Finalmente, evaluamos los principales productos de investigación web marcados como “investigación profunda”, “búsqueda profunda”, “búsqueda” o “investigación”. Los resultados están disponibles en una tabla de clasificación pública en esta URL HTTPS.
Publicado Originalme en rss.arxiv.org El 9 de junio de 2025.
Ver Fuente Original