En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->SUEÑO: Evaluación de investigación profunda con métricas agentes

SUEÑO: Evaluación de investigación profunda con métricas agentes

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los agentes de investigación profunda generan informes de calidad de analista, pero evaluarlos sigue siendo un desafío debido a la ausencia de una verdad única y la naturaleza multidimensional de la calidad de la investigación. Los puntos de referencia recientes proponen metodologías distintas, pero adolecen del espejismo de la síntesis, donde una fuerte fluidez superficial y alineación de las citas pueden oscurecer defectos fácticos y de razonamiento subyacentes. Caracterizamos esta brecha introduciendo una taxonomía en cuatro verticales que expone un desajuste crítico de capacidades: los evaluadores estáticos carecen inherentemente de las capacidades de uso de herramientas necesarias para evaluar la validez temporal y la corrección fáctica. Para abordar esto, proponemos DREAM (Evaluación de investigación profunda con métricas agentes), un marco que ejemplifica el principio de paridad de capacidades al hacer que la evaluación misma sea agente. DREAM estructura la evaluación a través de un protocolo de evaluación que combina métricas independientes de las consultas con métricas adaptativas generadas por un agente de llamada de herramientas, lo que permite una cobertura temporal, verificación fundamentada y sondas de razonamiento sistemático. Las evaluaciones controladas demuestran que DREAM es significativamente más sensible al deterioro factual y temporal que los puntos de referencia existentes, lo que ofrece un paradigma de evaluación escalable y sin referencias.

Publicado originalmente en export.arxiv.org el 23 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web