Resumen:En los últimos años, la rápida evolución de los grandes modelos de visión y lenguaje (LVLM) ha impulsado un cambio de paradigma en la detección multimodal de noticias falsas (MFND), transformándola de enfoques tradicionales de ingeniería de características a marcos de razonamiento multimodal unificados de extremo a extremo. Los primeros métodos se basaban principalmente en técnicas de fusión superficial para capturar correlaciones entre texto e imágenes, pero tenían problemas con la comprensión semántica de alto nivel y las complejas interacciones intermodales. La aparición de LVLM ha cambiado fundamentalmente este panorama al permitir el modelado conjunto de la visión y el lenguaje con un poderoso aprendizaje de representación, mejorando así la capacidad de detectar información errónea que aprovecha tanto las narrativas textuales como el contenido visual. A pesar de estos avances, el campo carece de un estudio sistemático que rastree esta transición y consolide los desarrollos recientes. Para abordar esta brecha, este documento proporciona una revisión integral de MFND a través de la lente de los LVLM. Primero presentamos una perspectiva histórica, mapeando la evolución desde los procesos de detección multimodal convencionales hasta los paradigmas basados en modelos básicos. A continuación, establecemos una taxonomía estructurada que cubre arquitecturas de modelos, conjuntos de datos y puntos de referencia de rendimiento. Además, analizamos los desafíos técnicos restantes, incluida la interpretabilidad, el razonamiento temporal y la generalización de dominio. Finalmente, describimos futuras direcciones de investigación para guiar la siguiente etapa de este cambio de paradigma. Hasta donde sabemos, esta es la primera encuesta integral que documenta y analiza sistemáticamente el papel transformador de los LVLM en la lucha contra las noticias falsas multimodales. El resumen de los métodos existentes mencionados se encuentra en nuestro Github: href{esta URL https{}esta URL https}.
Publicado originalmente en export.arxiv.org el 22 de enero de 2026.
Ver fuente original
