DeepFact: puntos de referencia y agentes en evolución conjunta para la factualidad de la investigación profunda

Resumen: Los agentes de LLM con búsqueda aumentada pueden producir informes de investigación profundos (DRR), pero verificar la factualidad a nivel de reclamo sigue siendo un desafío. Los verificadores de hechos existentes están diseñados principalmente para afirmaciones atómicas de dominio general y estilo factoide, y no existe ningún punto de referencia para comprobar si dichos verificadores se transfieren a las RRD. Sin embargo, construir ese punto de referencia es en sí mismo difícil. Primero mostramos que los puntos de referencia estáticos etiquetados por expertos son frágiles en este entorno: en un estudio controlado con especialistas con nivel de doctorado, los expertos sin ayuda lograron solo un 60,8% de precisión en un conjunto oculto de afirmaciones verificables de microoro. Proponemos la evolución de la evaluación comparativa mediante auditoría y luego puntuación (AtS), donde las etiquetas y los fundamentos de la evaluación comparativa son explícitamente revisables: cuando un verificador no está de acuerdo con la evaluación comparativa actual, debe presentar evidencia; un auditor resuelve la disputa; y las revisiones aceptadas actualizan el punto de referencia antes de calificar los modelos. En cuatro rondas de AtS, la precisión del microoro experto aumenta al 90,9%, lo que indica que los expertos son sustancialmente más confiables como auditores que como etiquetadores de una sola vez. Creamos una instancia de AtS como DeepFact-Bench, un punto de referencia de factualidad de RRD versionado con fundamentos auditables, y DeepFact-Eval, un agente de verificación a nivel de documentos (con una variante ligera agrupada) que supera a los verificadores existentes en DeepFact-Bench y se transfiere bien a conjuntos de datos de factualidad externos.

Publicado originalmente en export.arxiv.org el 8 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

De los puntos de referencia al impacto empresarial: implementación del agente generalista de IBM en la producción empresarial

Cómo medir los retornos de los gastos de I + D

Colapso del contexto: aprendizaje en contexto y colapso del modelo

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido