Debate con imágenes: detección de comportamientos engañosos en modelos multimodales de lenguaje grande

Resumen:¿Se están volviendo más capaces los sistemas de inteligencia artificial de vanguardia? Ciertamente. Sin embargo, ese progreso no es una bendición absoluta sino más bien un caballo de Troya: detrás de sus avances en el desempeño se esconden riesgos de seguridad más insidiosos y destructivos, a saber, el engaño. A diferencia de las alucinaciones, que surgen de una capacidad insuficiente y conducen a errores, el engaño representa una amenaza más profunda en la que los modelos engañan deliberadamente a los usuarios mediante razonamientos complejos y respuestas poco sinceras. A medida que avanzan las capacidades del sistema, los comportamientos engañosos se han extendido desde entornos textuales a entornos multimodales, amplificando su daño potencial. En primer lugar, ¿cómo podemos monitorear estos comportamientos engañosos multimodales encubiertos? Sin embargo, la investigación actual sigue confinada casi por completo al texto, lo que deja sin explorar los riesgos engañosos de los modelos de lenguajes grandes multimodales. En este trabajo, revelamos y cuantificamos sistemáticamente los riesgos del engaño multimodal, presentando MM-DeceptionBench, el primer punto de referencia diseñado explícitamente para evaluar el engaño multimodal. Abarcando seis categorías de engaño, MM-DeceptionBench caracteriza cómo los modelos manipulan y engañan estratégicamente a través de modalidades visuales y textuales combinadas. Por otro lado, la evaluación del engaño multimodal es casi un punto ciego en los métodos existentes. Su sigilo, agravado por la ambigüedad visual-semántica y la complejidad del razonamiento intermodal, hace que el seguimiento de la acción y de la cadena de pensamiento sea en gran medida ineficaz. Para abordar este desafío, proponemos el debate con imágenes, un novedoso marco de monitoreo de debate multiagente. Al obligar a los modelos a fundamentar sus afirmaciones en evidencia visual, este método mejora sustancialmente la detectabilidad de estrategias engañosas. Los experimentos muestran que aumenta constantemente la concordancia con los juicios humanos en todos los modelos probados, aumentando el kappa de Cohen en 1,5 veces y la precisión en 1,25 veces en GPT-4o.

Publicado originalmente en export.arxiv.org el 1 de diciembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Enjambres de agentes modelo de lenguaje grande para el diseño de secuencias de proteínas con validación experimental

La prominencia guía la respuesta de las preguntas visuales médicas longitudinales

¿Podemos confiar en las explicaciones de la IA? Evidencia de subregistro sistemático en el razonamiento en cadena de pensamientos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido