En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Ecos de malicia humana en agentes: evaluación comparativa de los LLM para ataques de acoso en línea de varios turnos

Ecos de malicia humana en agentes: evaluación comparativa de los LLM para ataques de acoso en línea de varios turnos

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los agentes Large Language Model (LLM) están impulsando una proporción cada vez mayor de aplicaciones web interactivas, pero siguen siendo vulnerables al mal uso y a los daños. Las investigaciones anteriores sobre jailbreak se han centrado en gran medida en indicaciones de un solo turno, mientras que el acoso real a menudo se desarrolla en interacciones de varios turnos. En este trabajo, presentamos el punto de referencia de agentes de acoso en línea que consta de: (i) un conjunto de datos sintéticos de conversaciones de acoso de múltiples turnos, (ii) una simulación de múltiples agentes (por ejemplo, acosador, víctima) informada por la teoría de juegos repetidos, (iii) tres métodos de jailbreak que atacan a los agentes a través de la memoria, la planificación y el ajuste, y (iv) un marco de evaluación de métodos mixtos. Utilizamos dos LLM destacados, LLaMA-3.1-8B-Instruct (código abierto) y Gemini-2.0-flash (código cerrado). Nuestros resultados muestran que el ajuste del jailbreak hace que el acoso esté casi garantizado con una tasa de éxito del ataque del 95,78–96,89 % frente al 57,25–64,19 % sin sintonizar Llama, y ​​del 99,33 % frente al 98,46 % sin sintonizar Gemini, mientras que se reduce drásticamente la tasa de rechazo al 1-2 % en ambos modelos. Los comportamientos tóxicos más prevalentes son Insultar con 84,9-87,8 % frente a 44,2-50,8 % sin sintonizar, y Flaming con 81,2-85,1 % frente a 31,5-38,8 % sin sintonizar, lo que indica barreras de seguridad más débiles en comparación con categorías sensibles como el acoso sexual o racial. La evaluación cualitativa revela además que los agentes atacados reproducen perfiles de agresión similares a los humanos, como patrones maquiavélicos/psicópatas en la planificación y tendencias narcisistas con memoria. Contraintuitivamente, los modelos de código cerrado y de código abierto exhiben distintas trayectorias de escalada a lo largo de los turnos, y los modelos de código cerrado muestran una vulnerabilidad significativa. En general, nuestros hallazgos muestran que los ataques de múltiples turnos y basados ​​en teorías no solo tienen un alto índice de éxito, sino que también imitan dinámicas de acoso similares a las humanas, lo que motiva el desarrollo de barreras de seguridad sólidas para, en última instancia, mantener las plataformas en línea seguras y responsables.

Publicado originalmente en export.arxiv.org el 16 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web