Resumen:El rápido desarrollo de la tecnología automatizada de generación de encuestas científicas ha hecho que sea cada vez más importante establecer un punto de referencia integral para evaluar la calidad de los resultados generados. esta URL http Todos los puntos de referencia de evaluación existentes se basan en criterios de selección defectuosos, como el recuento de citas y la coherencia estructural, para seleccionar encuestas escritas por humanos como conjuntos de datos de encuestas reales, y luego utilizan métricas superficiales, como la calidad estructural y la relevancia de las referencias, para evaluar las generadas. esta URL http, estos puntos de referencia tienen dos problemas clave: (1) los conjuntos de datos de la encuesta de verdad sobre el terreno no son confiables debido a la falta de anotaciones de dimensión académica; (2) las métricas de evaluación solo se centran en la calidad superficial de la encuesta, como la coherencia lógica. Ambas cuestiones conducen a que los puntos de referencia existentes no puedan evaluarse para evaluar su profundo “valor académico”, como los objetivos centrales de la investigación y el análisis crítico de diferentes estudios. Para abordar los problemas anteriores, proponemos DeepSurvey-Bench, un nuevo punto de referencia diseñado para evaluar de manera integral el valor académico de las encuestas generadas. Específicamente, nuestro punto de referencia propone criterios integrales de evaluación del valor académico que cubren tres dimensiones: valor informativo, valor de comunicación académica y valor de orientación de investigación. Con base en este criterio, construimos un conjunto de datos confiable con anotaciones de valor académico y evaluamos el profundo valor académico de las encuestas generadas. Amplios resultados experimentales demuestran que nuestro punto de referencia es altamente consistente con el desempeño humano al evaluar el valor académico de las encuestas generadas.
Publicado originalmente en export.arxiv.org el 22 de enero de 2026.
Ver fuente original
