LiveResearchBench: un punto de referencia en vivo para la investigación profunda centrada en el usuario en la naturaleza

Resumen:La investigación profunda, que produce informes completos basados en citas mediante la búsqueda y síntesis de información de cientos de fuentes web activas, marca una frontera importante para los sistemas agentes. Para evaluar rigurosamente esta capacidad, son esenciales cuatro principios: las tareas deben estar (1) centradas en el usuario, reflejando necesidades de información realistas, (2) dinámicas, que requieren información actualizada más allá del conocimiento paramétrico, (3) inequívocas, asegurando una interpretación consistente entre los usuarios, y (4) multifacéticas y de búsqueda intensiva, que requieren búsquedas en numerosas fuentes web y análisis en profundidad. Los puntos de referencia existentes no cumplen con estos principios y a menudo se centran en ámbitos limitados o plantean preguntas ambiguas que dificultan una comparación justa. Guiados por estos principios, presentamos LiveResearchBench, un punto de referencia de 100 tareas seleccionadas por expertos que abarcan la vida cotidiana, la empresa y el mundo académico, cada una de las cuales requiere búsqueda y síntesis web exhaustivas, dinámicas y en tiempo real. Creado con más de 1500 horas de trabajo humano, LiveResearchBench proporciona una base rigurosa para una evaluación sistemática. Para evaluar informes extensos basados en citas, presentamos DeepEval, un conjunto integral que cubre la calidad tanto a nivel de contenido como de informe, incluida la cobertura, la presentación, la precisión y asociación de las citas, la coherencia y la profundidad del análisis. DeepEval integra cuatro protocolos de evaluación complementarios, cada uno de ellos diseñado para garantizar una evaluación estable y un alto nivel de acuerdo con los juicios humanos. Utilizando LiveResearchBench y DeepEval, llevamos a cabo una evaluación integral de 17 sistemas de investigación profunda de vanguardia, incluida la búsqueda web de un solo agente, la investigación profunda de un solo agente y los sistemas de múltiples agentes. Nuestro análisis revela las fortalezas actuales, los modos de falla recurrentes y los componentes clave del sistema necesarios para avanzar en una investigación profunda, confiable y reveladora.

Publicado originalmente en export.arxiv.org el 16 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Seminario web del IoT Council (enero tba) sobre África, datos e Internet de las cosas

Equilibrio entre sostenibilidad y rendimiento: el papel de las películas de pequeña escala en los sistemas de inteligencia artificial agentes

Extender gráficos de predicado de decisión para una explicación integral del bosque de aislamiento

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido