ResearchRubrics: un punto de referencia de indicaciones y rúbricas para evaluar agentes de investigación profunda

Resumen:Deep Research (DR) es una aplicación de agente emergente que aprovecha los grandes modelos de lenguaje (LLM) para abordar consultas abiertas. Requiere la integración de varias capacidades, incluido el razonamiento de varios pasos, la síntesis entre documentos y la generación de respuestas extensas y respaldadas por evidencia. La evaluación de la recuperación ante desastres sigue siendo un desafío porque las respuestas son largas y diversas, admiten muchas soluciones válidas y, a menudo, dependen de fuentes de información dinámicas. Presentamos ResearchRubrics, un punto de referencia estandarizado para DR creado con más de 2800 horas de trabajo humano que combina indicaciones realistas y de diversos dominios con más de 2500 rúbricas detalladas escritas por expertos para evaluar la base objetiva, la solidez del razonamiento y la claridad. También proponemos un nuevo marco de complejidad para categorizar las tareas de DR en tres ejes: amplitud conceptual, anidamiento lógico y exploración. Además, desarrollamos protocolos de evaluación humanos y basados en modelos que miden el cumplimiento de la rúbrica por parte de los agentes de DR. Evaluamos varios sistemas de DR de última generación y descubrimos que incluso agentes líderes como DR de Gemini y DR de OpenAI logran un cumplimiento promedio inferior al 68 % con nuestras rúbricas, principalmente debido a la falta de contexto implícito y al razonamiento inadecuado sobre la información recuperada. Nuestros resultados resaltan la necesidad de una evaluación sólida y escalable de las capacidades de investigación profunda, para lo cual publicamos ResearchRubrics (incluidas todas las indicaciones, rúbricas y códigos de evaluación) para facilitar el progreso hacia asistentes de investigación bien justificados.

Publicado originalmente en export.arxiv.org el 11 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

LOGRASER: Empoderar LLM con razonamiento grueso a fin de expertos para tareas de análisis de registro

Hacia descripciones basadas en la ontología de conversaciones con conceptos cualitativamente definidos

Límites de implementación de IA segura: diferenciando la supervisión y el control

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido