En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Debate con imágenes: detección de comportamientos engañosos en modelos multimodales de lenguaje grande

Debate con imágenes: detección de comportamientos engañosos en modelos multimodales de lenguaje grande

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:¿Se están volviendo más capaces los sistemas de inteligencia artificial de vanguardia? Ciertamente. Sin embargo, ese progreso no es una bendición absoluta sino más bien un caballo de Troya: detrás de sus avances en el desempeño se esconden riesgos de seguridad más insidiosos y destructivos, a saber, el engaño. A diferencia de las alucinaciones, que surgen de una capacidad insuficiente y conducen a errores, el engaño representa una amenaza más profunda en la que los modelos engañan deliberadamente a los usuarios mediante razonamientos complejos y respuestas poco sinceras. A medida que avanzan las capacidades del sistema, los comportamientos engañosos se han extendido desde entornos textuales a entornos multimodales, amplificando su daño potencial. En primer lugar, ¿cómo podemos monitorear estos comportamientos engañosos multimodales encubiertos? Sin embargo, la investigación actual sigue confinada casi por completo al texto, lo que deja sin explorar los riesgos engañosos de los modelos de lenguajes grandes multimodales. En este trabajo, revelamos y cuantificamos sistemáticamente los riesgos del engaño multimodal, presentando MM-DeceptionBench, el primer punto de referencia diseñado explícitamente para evaluar el engaño multimodal. Abarcando seis categorías de engaño, MM-DeceptionBench caracteriza cómo los modelos manipulan y engañan estratégicamente a través de modalidades visuales y textuales combinadas. Por otro lado, la evaluación del engaño multimodal es casi un punto ciego en los métodos existentes. Su sigilo, agravado por la ambigüedad visual-semántica y la complejidad del razonamiento intermodal, hace que el seguimiento de la acción y de la cadena de pensamiento sea en gran medida ineficaz. Para abordar este desafío, proponemos el debate con imágenes, un novedoso marco de monitoreo de debate multiagente. Al obligar a los modelos a fundamentar sus afirmaciones en evidencia visual, este método mejora sustancialmente la detectabilidad de estrategias engañosas. Los experimentos muestran que aumenta constantemente la concordancia con los juicios humanos en todos los modelos probados, aumentando el kappa de Cohen en 1,5 veces y la precisión en 1,25 veces en GPT-4o.

Publicado originalmente en export.arxiv.org el 1 de diciembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web