En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->ResearchRubrics: un punto de referencia de indicaciones y rúbricas para evaluar agentes de investigación profunda

ResearchRubrics: un punto de referencia de indicaciones y rúbricas para evaluar agentes de investigación profunda

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Deep Research (DR) es una aplicación de agente emergente que aprovecha los grandes modelos de lenguaje (LLM) para abordar consultas abiertas. Requiere la integración de varias capacidades, incluido el razonamiento de varios pasos, la síntesis entre documentos y la generación de respuestas extensas y respaldadas por evidencia. La evaluación de la recuperación ante desastres sigue siendo un desafío porque las respuestas son largas y diversas, admiten muchas soluciones válidas y, a menudo, dependen de fuentes de información dinámicas. Presentamos ResearchRubrics, un punto de referencia estandarizado para DR creado con más de 2800 horas de trabajo humano que combina indicaciones realistas y de diversos dominios con más de 2500 rúbricas detalladas escritas por expertos para evaluar la base objetiva, la solidez del razonamiento y la claridad. También proponemos un nuevo marco de complejidad para categorizar las tareas de DR en tres ejes: amplitud conceptual, anidamiento lógico y exploración. Además, desarrollamos protocolos de evaluación humanos y basados ​​en modelos que miden el cumplimiento de la rúbrica por parte de los agentes de DR. Evaluamos varios sistemas de DR de última generación y descubrimos que incluso agentes líderes como DR de Gemini y DR de OpenAI logran un cumplimiento promedio inferior al 68 % con nuestras rúbricas, principalmente debido a la falta de contexto implícito y al razonamiento inadecuado sobre la información recuperada. Nuestros resultados resaltan la necesidad de una evaluación sólida y escalable de las capacidades de investigación profunda, para lo cual publicamos ResearchRubrics (incluidas todas las indicaciones, rúbricas y códigos de evaluación) para facilitar el progreso hacia asistentes de investigación bien justificados.

Publicado originalmente en export.arxiv.org el 11 de noviembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web