Resumen: Los agentes Large Language Model (LLM) están impulsando una proporción cada vez mayor de aplicaciones web interactivas, pero siguen siendo vulnerables al mal uso y a los daños. Las investigaciones anteriores sobre jailbreak se han centrado en gran medida en indicaciones de un solo turno, mientras que el acoso real a menudo se desarrolla en interacciones de varios turnos. En este trabajo, presentamos el punto de referencia de agentes de acoso en línea que consta de: (i) un conjunto de datos sintéticos de conversaciones de acoso de múltiples turnos, (ii) una simulación de múltiples agentes (por ejemplo, acosador, víctima) informada por la teoría de juegos repetidos, (iii) tres métodos de jailbreak que atacan a los agentes a través de la memoria, la planificación y el ajuste, y (iv) un marco de evaluación de métodos mixtos. Utilizamos dos LLM destacados, LLaMA-3.1-8B-Instruct (código abierto) y Gemini-2.0-flash (código cerrado). Nuestros resultados muestran que el ajuste del jailbreak hace que el acoso esté casi garantizado con una tasa de éxito del ataque del 95,78–96,89 % frente al 57,25–64,19 % sin sintonizar Llama, y del 99,33 % frente al 98,46 % sin sintonizar Gemini, mientras que se reduce drásticamente la tasa de rechazo al 1-2 % en ambos modelos. Los comportamientos tóxicos más prevalentes son Insultar con 84,9-87,8 % frente a 44,2-50,8 % sin sintonizar, y Flaming con 81,2-85,1 % frente a 31,5-38,8 % sin sintonizar, lo que indica barreras de seguridad más débiles en comparación con categorías sensibles como el acoso sexual o racial. La evaluación cualitativa revela además que los agentes atacados reproducen perfiles de agresión similares a los humanos, como patrones maquiavélicos/psicópatas en la planificación y tendencias narcisistas con memoria. Contraintuitivamente, los modelos de código cerrado y de código abierto exhiben distintas trayectorias de escalada a lo largo de los turnos, y los modelos de código cerrado muestran una vulnerabilidad significativa. En general, nuestros hallazgos muestran que los ataques de múltiples turnos y basados en teorías no solo tienen un alto índice de éxito, sino que también imitan dinámicas de acoso similares a las humanas, lo que motiva el desarrollo de barreras de seguridad sólidas para, en última instancia, mantener las plataformas en línea seguras y responsables.

Publicado originalmente en export.arxiv.org el 16 de octubre de 2025.
Ver fuente original

Ecos de malicia humana en agentes: evaluación comparativa de los LLM para ataques de acoso en línea de varios turnos

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Torneo de indicaciones: Evolucionando las instrucciones de LLM a través de debates estructurados y calificaciones ELO

PREFINE: Generación de historias personalizadas mediante críticas de usuarios simuladas y generación de rúbricas específicas del usuario

Más allá de la respuesta final: Evaluación de las trayectorias de razonamiento de los agentes acuáticos de herramientas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido