ReMMD: Verificación agente realista multilingüe de múltiples imágenes para la detección de información errónea multimodal

Resumen: La detección multimodal de información errónea es cada vez más importante porque las publicaciones virales ahora combinan largas narrativas multilingües, varias imágenes, procedencia mixta y sutiles errores de encuadre de texto e imagen. Los puntos de referencia y los métodos existentes siguen estando mal adaptados a esta configuración: normalmente aíslan títulos cortos, imágenes únicas, etiquetas binarias o una fuente de manipulación, mientras que la verificación agente sigue siendo costosa bajo una búsqueda de evidencia realista. We present ReMMD, a realistic multilingual multi-image agentic verification framework for multimodal misinformation detection. ReMMD incluye ReMMDBench, un punto de referencia de detección de información errónea multimodal del mundo real con 500 muestras, 2756 imágenes, cinco idiomas monolingües, dos configuraciones multilingües, tres niveles de longitud de texto, publicaciones de múltiples imágenes, etiquetas de veracidad de cinco vías, ocho etiquetas de distorsión, procedencia de la evidencia y fundamentos. También incluye ReMMD-Agent, un verificador de memoria persistente que descompone publicaciones en puntos atómicos, crea un conjunto de evidencia reutilizable y predice resultados estructurados L1/L2/L3. Entre los sistemas propietarios, LVLM abiertos, MMD-Agent y T2-Agent, ReMMD-Agent obtiene el mejor rendimiento de veracidad de cinco vías, con una precisión del 41,80 % y un 39,12 % de macro-F1 utilizando GPT-5.2, al tiempo que reduce el costo en un 17,5 % en relación con MMD-Agent y un 79,9 % en relación con T2-Agent. El proyecto está disponible en esta URL https.

Publicado originalmente en export.arxiv.org el 23 de junio de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Menos es más para el razonamiento lógico de varios pasos de la generalización de LLM mediante eliminación, paráfrasis y compresión de reglas

Bienvenido al lado oscuro del sueño sin permiso de las criptomonedas

Benchmarking Vector, gráfico y tuberías de generación aumentada de recuperación híbrida (RAG) para redes de acceso de radio abierto (Oran)

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido