Resumen: Los agentes de LLM con búsqueda aumentada pueden producir informes de investigación profundos (DRR), pero verificar la factualidad a nivel de reclamo sigue siendo un desafío. Los verificadores de hechos existentes están diseñados principalmente para afirmaciones atómicas de dominio general y estilo factoide, y no existe ningún punto de referencia para comprobar si dichos verificadores se transfieren a las RRD. Sin embargo, construir ese punto de referencia es en sí mismo difícil. Primero mostramos que los puntos de referencia estáticos etiquetados por expertos son frágiles en este entorno: en un estudio controlado con especialistas con nivel de doctorado, los expertos sin ayuda lograron solo un 60,8% de precisión en un conjunto oculto de afirmaciones verificables de microoro. Proponemos la evolución de la evaluación comparativa mediante auditoría y luego puntuación (AtS), donde las etiquetas y los fundamentos de la evaluación comparativa son explícitamente revisables: cuando un verificador no está de acuerdo con la evaluación comparativa actual, debe presentar evidencia; un auditor resuelve la disputa; y las revisiones aceptadas actualizan el punto de referencia antes de calificar los modelos. En cuatro rondas de AtS, la precisión del microoro experto aumenta al 90,9%, lo que indica que los expertos son sustancialmente más confiables como auditores que como etiquetadores de una sola vez. Creamos una instancia de AtS como DeepFact-Bench, un punto de referencia de factualidad de RRD versionado con fundamentos auditables, y DeepFact-Eval, un agente de verificación a nivel de documentos (con una variante ligera agrupada) que supera a los verificadores existentes en DeepFact-Bench y se transfiere bien a conjuntos de datos de factualidad externos.
Publicado originalmente en export.arxiv.org el 8 de marzo de 2026.
Ver fuente original
