Resumen: La detección de engaños multimodal es fundamental para identificar intenciones fraudulentas, sin embargo, los enfoques existentes se basan predominantemente en paradigmas de caja negra de extremo a extremo. Estos métodos adolecen de una grave falta de interpretabilidad, no proporcionan trayectorias de razonamiento transparentes y luchan por capturar explícitamente las sutiles inconsistencias intermodales inherentes a los comportamientos engañosos. Para trascender estas limitaciones, proponemos ThinkDeception, un marco de detección de engaño multimodal novedoso e interpretable. Como esfuerzo pionero, introduce modelos de lenguaje grande multimodal (MLLM) en este dominio, transformando la detección de engaños de una tarea de clasificación binaria tradicional a un proceso de razonamiento cognitivo explícito. Con la ayuda del primer conjunto de datos de Cadena de Pensamiento (CoT) multimodal paso a paso meticulosamente anotado, desarrollamos un modelo fundamental, ThinkDeception Base, que valida empíricamente el papel fundamental de la inconsistencia modal en la decodificación del engaño. Sobre la base de esta base, nuestra principal innovación radica en proponer la optimización de políticas relativas del grupo de coherencia visual y audio (VAC–GRPO) equipada con una estrategia de capacitación progresiva. A diferencia del GRPO estándar, estratificamos los datos de entrenamiento en cuatro niveles de dificultad progresivos, guiando el modelo a través de una transición cognitiva psicológicamente basada de fácil a difícil. Al combinar de manera innovadora este programador de currículo dinámico con un mecanismo de recompensa multidimensional consciente del proceso y un paradigma de aprendizaje reflexivo, elevamos significativamente la calidad general del razonamiento del modelo. Amplios experimentos en puntos de referencia convencionales demuestran que ThinkDeception establece un nuevo SOTA, superando significativamente a los métodos existentes tanto en precisión de detección como en calidad racional. En última instancia, este trabajo impulsa con éxito el campo de la detección del engaño hacia un razonamiento cognitivo multimodal e interpretable.
Publicado originalmente en export.arxiv.org el 17 de junio de 2026.
Ver fuente original
