Resumen: Los modelos de lenguajes grandes (LLM) responden cada vez más consultas citando fuentes web, pero las evaluaciones existentes enfatizan la corrección de las respuestas en lugar de la calidad de la evidencia. Presentamos SourceBench, un punto de referencia para medir la calidad de las fuentes web citadas en 100 consultas del mundo real que abarcan intenciones informativas, fácticas, argumentativas, sociales y de compra. SourceBench utiliza un marco de ocho métricas que cubre la calidad del contenido (relevancia del contenido, precisión de los hechos, objetividad) y señales a nivel de página (por ejemplo, actualidad, autoridad/responsabilidad, claridad), e incluye un conjunto de datos etiquetados humanamente con un evaluador calibrado basado en LLM que coincide estrechamente con los juicios de expertos. Evaluamos ocho LLM, la Búsqueda de Google y tres herramientas de búsqueda de IA en más de 3996 fuentes citadas utilizando SourceBench y realizamos experimentos adicionales para comprender los resultados de la evaluación. En general, nuestro trabajo revela cuatro nuevos conocimientos clave que pueden guiar la investigación futura en la dirección de GenAI y la búsqueda web.
Publicado originalmente en export.arxiv.org el 19 de febrero de 2026.
Ver fuente original
