Resumen: Los modelos de visión-lenguaje (VLM) siguen siendo propensos a alucinaciones, produciendo resultados fluidos pero visualmente infieles. Los métodos existentes de cadena de pensamiento y recuperación aumentada solo abordan esto parcialmente, ya que no imponen la base de citación a nivel de paso ni enrutan las fallas de verificación de regreso a la recuperación para su corrección. Presentamos CaVe-VLM-CoT, un marco modular de RAG agente basado en reflexión que aplica el razonamiento basado en evidencia a través de un proceso de circuito cerrado de cinco etapas: Extractor, Retriever, Solver, Citation Injector y Verifier, en el que las afirmaciones no fundamentadas detectadas activan retroalimentación estructurada al Extractor para una nueva recuperación específica. Dado que ningún marco existente mide de forma conjunta la calidad de la recuperación, la fidelidad de las citas paso a paso y la base intermodal, proponemos un conjunto de 23 métricas por componentes en todas las etapas, ancladas en CaVeScore, una métrica compuesta que pondera la precisión, la precisión de las citas y la recuperación, la atribución y la base de la evidencia. Sin modificaciones arquitectónicas o rápidas, CaVe-VLM-CoT logra una precisión del 87,1% y un 56,6% CaVeScore en ScienceQA, y una precisión del 55,2% y un 35,7% CaVeScore en MMMU (30 sujetos).
Publicado originalmente en export.arxiv.org el 17 de junio de 2026.
Ver fuente original
