En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->ScholarEval: Evaluación de ideas de investigación basada en la literatura

ScholarEval: Evaluación de ideas de investigación basada en la literatura

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:A medida que las herramientas de IA se vuelven cada vez más comunes para la ideación de investigaciones, una evaluación sólida es fundamental para garantizar la validez y utilidad de las ideas generadas. Presentamos ScholarEval, un marco de evaluación aumentada de recuperación que evalúa ideas de investigación basándose en dos criterios fundamentales: solidez (la validez empírica de los métodos propuestos basados ​​en la literatura existente) y contribución (el grado de avance realizado por la idea en diferentes dimensiones en relación con investigaciones anteriores). Para evaluar ScholarEval, presentamos ScholarIdeas, el primer conjunto de datos anotado por expertos de ideas y revisiones de investigación multidominio, compuesto por 117 ideas en cuatro disciplinas: inteligencia artificial, neurociencia, bioquímica y ecología. Nuestra evaluación muestra que ScholarEval logra una cobertura significativamente mayor de los puntos mencionados en las rúbricas anotadas por expertos humanos en ScholarIdeas en comparación con todas las líneas de base. Además, ScholarEval se prefiere constantemente a nuestra línea de base más sólida o4-mini-deep-research, un sistema agente de razonamiento y búsqueda de OpenAI, en términos de capacidad de evaluación, profundidad y respaldo de evidencia. Nuestro estudio de usuarios a gran escala también muestra que ScholarEval supera significativamente la investigación profunda en compromiso con la literatura, refinamiento de ideas y utilidad. Publicamos abiertamente nuestro código, conjunto de datos y herramienta ScholarEval para que la comunidad los use y desarrolle.

Publicado originalmente en export.arxiv.org el 20 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web