Resumen: La detección multimodal de información errónea es cada vez más importante porque las publicaciones virales ahora combinan largas narrativas multilingües, varias imágenes, procedencia mixta y sutiles errores de encuadre de texto e imagen. Los puntos de referencia y los métodos existentes siguen estando mal adaptados a esta configuración: normalmente aíslan títulos cortos, imágenes únicas, etiquetas binarias o una fuente de manipulación, mientras que la verificación agente sigue siendo costosa bajo una búsqueda de evidencia realista. We present ReMMD, a realistic multilingual multi-image agentic verification framework for multimodal misinformation detection. ReMMD incluye ReMMDBench, un punto de referencia de detección de información errónea multimodal del mundo real con 500 muestras, 2756 imágenes, cinco idiomas monolingües, dos configuraciones multilingües, tres niveles de longitud de texto, publicaciones de múltiples imágenes, etiquetas de veracidad de cinco vías, ocho etiquetas de distorsión, procedencia de la evidencia y fundamentos. También incluye ReMMD-Agent, un verificador de memoria persistente que descompone publicaciones en puntos atómicos, crea un conjunto de evidencia reutilizable y predice resultados estructurados L1/L2/L3. Entre los sistemas propietarios, LVLM abiertos, MMD-Agent y T2-Agent, ReMMD-Agent obtiene el mejor rendimiento de veracidad de cinco vías, con una precisión del 41,80 % y un 39,12 % de macro-F1 utilizando GPT-5.2, al tiempo que reduce el costo en un 17,5 % en relación con MMD-Agent y un 79,9 % en relación con T2-Agent. El proyecto está disponible en esta URL https.
Publicado originalmente en export.arxiv.org el 23 de junio de 2026.
Ver fuente original
