En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->LiveResearchBench: un punto de referencia en vivo para la investigación profunda centrada en el usuario en la naturaleza

LiveResearchBench: un punto de referencia en vivo para la investigación profunda centrada en el usuario en la naturaleza

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:La investigación profunda, que produce informes completos basados ​​en citas mediante la búsqueda y síntesis de información de cientos de fuentes web activas, marca una frontera importante para los sistemas agentes. Para evaluar rigurosamente esta capacidad, son esenciales cuatro principios: las tareas deben estar (1) centradas en el usuario, reflejando necesidades de información realistas, (2) dinámicas, que requieren información actualizada más allá del conocimiento paramétrico, (3) inequívocas, asegurando una interpretación consistente entre los usuarios, y (4) multifacéticas y de búsqueda intensiva, que requieren búsquedas en numerosas fuentes web y análisis en profundidad. Los puntos de referencia existentes no cumplen con estos principios y a menudo se centran en ámbitos limitados o plantean preguntas ambiguas que dificultan una comparación justa. Guiados por estos principios, presentamos LiveResearchBench, un punto de referencia de 100 tareas seleccionadas por expertos que abarcan la vida cotidiana, la empresa y el mundo académico, cada una de las cuales requiere búsqueda y síntesis web exhaustivas, dinámicas y en tiempo real. Creado con más de 1500 horas de trabajo humano, LiveResearchBench proporciona una base rigurosa para una evaluación sistemática. Para evaluar informes extensos basados ​​en citas, presentamos DeepEval, un conjunto integral que cubre la calidad tanto a nivel de contenido como de informe, incluida la cobertura, la presentación, la precisión y asociación de las citas, la coherencia y la profundidad del análisis. DeepEval integra cuatro protocolos de evaluación complementarios, cada uno de ellos diseñado para garantizar una evaluación estable y un alto nivel de acuerdo con los juicios humanos. Utilizando LiveResearchBench y DeepEval, llevamos a cabo una evaluación integral de 17 sistemas de investigación profunda de vanguardia, incluida la búsqueda web de un solo agente, la investigación profunda de un solo agente y los sistemas de múltiples agentes. Nuestro análisis revela las fortalezas actuales, los modos de falla recurrentes y los componentes clave del sistema necesarios para avanzar en una investigación profunda, confiable y reveladora.

Publicado originalmente en export.arxiv.org el 16 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web