CaVe-VLM-CoT: un marco modelo interpretable de visión y lenguaje

Resumen: Los modelos de visión-lenguaje (VLM) siguen siendo propensos a alucinaciones, produciendo resultados fluidos pero visualmente infieles. Los métodos existentes de cadena de pensamiento y recuperación aumentada solo abordan esto parcialmente, ya que no imponen la base de citación a nivel de paso ni enrutan las fallas de verificación de regreso a la recuperación para su corrección. Presentamos CaVe-VLM-CoT, un marco modular de RAG agente basado en reflexión que aplica el razonamiento basado en evidencia a través de un proceso de circuito cerrado de cinco etapas: Extractor, Retriever, Solver, Citation Injector y Verifier, en el que las afirmaciones no fundamentadas detectadas activan retroalimentación estructurada al Extractor para una nueva recuperación específica. Dado que ningún marco existente mide de forma conjunta la calidad de la recuperación, la fidelidad de las citas paso a paso y la base intermodal, proponemos un conjunto de 23 métricas por componentes en todas las etapas, ancladas en CaVeScore, una métrica compuesta que pondera la precisión, la precisión de las citas y la recuperación, la atribución y la base de la evidencia. Sin modificaciones arquitectónicas o rápidas, CaVe-VLM-CoT logra una precisión del 87,1% y un 56,6% CaVeScore en ScienceQA, y una precisión del 55,2% y un 35,7% CaVeScore en MMMU (30 sujetos).

Publicado originalmente en export.arxiv.org el 17 de junio de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La descarga: despertar cerebros congelados y regresa el AI Hype Index

Un método inteligente de diagnóstico de fallas para aeronaves de aviación general basado en gemelo digital de fidelidad múltiple y mejora del conocimiento FMEA

Pipe: posición de posición informada física para la alineación de imágenes satelitales y series de tiempo

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido