Banco de investigación profunda: evaluación de agentes de investigación web de IA

Resumen: Entre los casos de uso más comunes de la IA moderna es LLM Chat con la búsqueda web habilitada. Sin embargo, no existen evaluaciones directas de la calidad de los agentes de investigación web que controlan la web que cambia continuamente. Presentamos un banco de investigación profunda, que consta de 89 casos de tareas de investigación web de varios pasos de dificultad variable en 8 categorías de tareas diversas, con las respuestas cuidadosamente elaboradas por humanos calificados. Proporcionamos un entorno de “retroversar” con un gran conjunto congelado de páginas web raspadas, y demostramos que los agentes de “retroopears” fuera de línea se desempeñan de manera comparable a los agentes de “web en vivo”, lo que permite evaluaciones confiables de modelos a lo largo del tiempo. Proporcionamos herramientas de agente robustas y andamios para comparar los principales LLM a medida que se lanzan, incluidos modelos de “pensamiento” como O3 y Gemini 2.5 Pro. Incluimos evaluaciones automatizadas de los largos trazas del agente para informar el progreso a lo largo del tiempo en alucinaciones, uso de herramientas y olvido. Finalmente, evaluamos los principales productos de investigación web marcados como “investigación profunda”, “búsqueda profunda”, “búsqueda” o “investigación”. Los resultados están disponibles en una tabla de clasificación pública en esta URL HTTPS.

Publicado Originalme en rss.arxiv.org El 9 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Uniendo el razonamiento con el aprendizaje: desenmascarando ilusiones utilizando la complejidad fuera de la generalización de la distribución

Estudio de reproducibilidad de “Cooperar o colapsar: aparición de cooperación sostenible en una sociedad de agentes LLM”

El imperativo teórico de la información: la compresión y los fundamentos epistémicos de la inteligencia

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido