Resumen: evaluar efectivamente a los agentes de investigación profundas que buscan autónomas en la web, analizan información y generan informes sigue siendo un desafío importante, particularmente cuando se trata de evaluar informes largos y dar comentarios detallados sobre sus pasos intermedios. Para abordar estas brechas, presentamos Deep Research Comparator, una plataforma que ofrece un marco holístico para el alojamiento de agentes de investigación profunda, comparación de lado a lado, recopilación de retroalimentación humana de grano fino y cálculo de clasificación. Dada una consulta de usuario, nuestra plataforma muestra los informes finales de dos agentes diferentes junto con sus pasos intermedios durante la generación. Los anotadores pueden evaluar la calidad general de los informes finales basados en la comparación de lado a lado, y también proporcionar comentarios detallados por separado mediante la evaluación de los pasos intermedios o los tramos de texto específicos dentro del informe final. Además, desarrollamos DeepResearch simple, un andamio de agente de extremo a extremo. Este andamio sirve como una línea de base que facilita la fácil integración de varios modelos de idiomas grandes para transformarlos en agentes de investigación profundos para su evaluación. Para demostrar la utilidad de la plataforma para el desarrollo de agentes de investigación profunda, hemos recopilado datos reales de preferencia de usuario de 17 anotadores en tres agentes de investigación profunda. Se puede encontrar un video de demostración de nuestra plataforma en esta URL HTTPS.
Publicado Originalme en export.arxiv.org El 8 de julio de 2025.
Ver Fuente Original