Resumen: Los agentes web basados en modelos de lenguaje de visión (VLM) potencian cada vez más tareas de selección de alto riesgo, como la recomendación de contenido o la clasificación de productos, combinando la percepción multimodal con el razonamiento de preferencias. Estudios recientes revelan que estos agentes son vulnerables contra atacantes que pueden sesgar los resultados de la selección mediante manipulaciones de preferencias mediante ventanas emergentes adversas, perturbaciones de imágenes o ajustes de contenido. Sin embargo, el trabajo existente supone un fuerte acceso a la caja blanca, con perturbaciones unimodales limitadas, o utiliza configuraciones poco prácticas. En este artículo, demostramos, por primera vez, que la explotación conjunta de canales visuales y textuales produce manipulaciones de preferencias significativamente más poderosas bajo capacidades realistas del atacante. Presentamos la dirección de preferencia intermodal (CPS) que optimiza conjuntamente las modificaciones imperceptibles en las descripciones del lenguaje visual y natural de un elemento, explotando las perturbaciones de imágenes transferibles por CLIP y los sesgos lingüísticos inducidos por RLHF para orientar las decisiones de los agentes. A diferencia de estudios anteriores que suponen un acceso gradiente, o control sobre las páginas web o la memoria del agente, adoptamos una configuración realista de amenaza de caja negra: un adversario sin privilegios puede editar solo las imágenes y los metadatos textuales de su propia lista, sin conocer los aspectos internos del modelo del agente. Evaluamos CPS en agentes impulsados por VLM propietarios y de código abierto de última generación, incluidos GPT-4.1, Qwen-2.5VL y Pixtral-Large, tanto en tareas de selección de películas como de comercio electrónico. Nuestros resultados muestran que el CPS es significativamente más efectivo que los principales métodos de referencia. Por ejemplo, nuestros resultados muestran que CPS supera consistentemente las líneas de base en todos los modelos y al mismo tiempo mantiene tasas de detección un 70% más bajas, lo que demuestra efectividad y sigilo. Estos hallazgos resaltan la necesidad urgente de defensas sólidas, ya que los sistemas agentes desempeñan un papel cada vez más importante en la sociedad.
Publicado Originalme en export.arxiv.org El 6 de octubre de 2025.
Ver Fuente Original
