Comparador de investigación profunda: una plataforma para anotaciones humanas de grano fino de agentes de investigación profunda

Resumen: evaluar efectivamente a los agentes de investigación profundas que buscan autónomas en la web, analizan información y generan informes sigue siendo un desafío importante, particularmente cuando se trata de evaluar informes largos y dar comentarios detallados sobre sus pasos intermedios. Para abordar estas brechas, presentamos Deep Research Comparator, una plataforma que ofrece un marco holístico para el alojamiento de agentes de investigación profunda, comparación de lado a lado, recopilación de retroalimentación humana de grano fino y cálculo de clasificación. Dada una consulta de usuario, nuestra plataforma muestra los informes finales de dos agentes diferentes junto con sus pasos intermedios durante la generación. Los anotadores pueden evaluar la calidad general de los informes finales basados en la comparación de lado a lado, y también proporcionar comentarios detallados por separado mediante la evaluación de los pasos intermedios o los tramos de texto específicos dentro del informe final. Además, desarrollamos DeepResearch simple, un andamio de agente de extremo a extremo. Este andamio sirve como una línea de base que facilita la fácil integración de varios modelos de idiomas grandes para transformarlos en agentes de investigación profundos para su evaluación. Para demostrar la utilidad de la plataforma para el desarrollo de agentes de investigación profunda, hemos recopilado datos reales de preferencia de usuario de 17 anotadores en tres agentes de investigación profunda. Se puede encontrar un video de demostración de nuestra plataforma en esta URL HTTPS.

Publicado Originalme en export.arxiv.org El 8 de julio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Puir principios éticos y métodos algorítmicos: un enfoque alternativo para evaluar la confiabilidad en los sistemas de IA

MPCI-Bench: un punto de referencia para la evaluación de integridad contextual multimodal por pares de agentes de modelos de lenguaje

Sobre la complejidad de la semántica fundamentada para marcos de argumentación infinitos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido