En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->El cambio de paradigma: una encuesta exhaustiva sobre modelos de lenguaje de visión amplia para la detección multimodal de noticias falsas

El cambio de paradigma: una encuesta exhaustiva sobre modelos de lenguaje de visión amplia para la detección multimodal de noticias falsas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:En los últimos años, la rápida evolución de los grandes modelos de visión y lenguaje (LVLM) ha impulsado un cambio de paradigma en la detección multimodal de noticias falsas (MFND), transformándola de enfoques tradicionales de ingeniería de características a marcos de razonamiento multimodal unificados de extremo a extremo. Los primeros métodos se basaban principalmente en técnicas de fusión superficial para capturar correlaciones entre texto e imágenes, pero tenían problemas con la comprensión semántica de alto nivel y las complejas interacciones intermodales. La aparición de LVLM ha cambiado fundamentalmente este panorama al permitir el modelado conjunto de la visión y el lenguaje con un poderoso aprendizaje de representación, mejorando así la capacidad de detectar información errónea que aprovecha tanto las narrativas textuales como el contenido visual. A pesar de estos avances, el campo carece de un estudio sistemático que rastree esta transición y consolide los desarrollos recientes. Para abordar esta brecha, este documento proporciona una revisión integral de MFND a través de la lente de los LVLM. Primero presentamos una perspectiva histórica, mapeando la evolución desde los procesos de detección multimodal convencionales hasta los paradigmas basados ​​en modelos básicos. A continuación, establecemos una taxonomía estructurada que cubre arquitecturas de modelos, conjuntos de datos y puntos de referencia de rendimiento. Además, analizamos los desafíos técnicos restantes, incluida la interpretabilidad, el razonamiento temporal y la generalización de dominio. Finalmente, describimos futuras direcciones de investigación para guiar la siguiente etapa de este cambio de paradigma. Hasta donde sabemos, esta es la primera encuesta integral que documenta y analiza sistemáticamente el papel transformador de los LVLM en la lucha contra las noticias falsas multimodales. El resumen de los métodos existentes mencionados se encuentra en nuestro Github: href{esta URL https{}esta URL https}.

Publicado originalmente en export.arxiv.org el 22 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web