Ecos de malicia humana en agentes: evaluación comparativa de los LLM para ataques de acoso en línea de varios turnos
Resumen: Los agentes Large Language Model (LLM) están impulsando una proporción cada vez mayor de aplicaciones web interactivas, pero siguen siendo vulnerables al mal uso y a los daños. Las investigaciones anteriores sobre jailbreak se han centrado en gran medida en indicaciones de un solo turno, mientras que el acoso real a menudo se desarrolla en interacciones de varios turnos.
Leer más →