Resumen: Los agentes facultados para LLM pueden exhibir no sólo sesgos demográficos (por ejemplo, género, religión) sino también sesgos intergrupales desencadenados por señales mínimas de “nosotros” versus “ellos”. Cuando este límite intergrupal se alinea con una división agente-humano, el riesgo pasa de las disparidades entre los grupos demográficos humanos a una asimetría más fundamental a nivel de grupo, es decir, los agentes pueden tratar a los humanos en su conjunto como un exogrupo. Para examinar esta posibilidad, construimos una simulación social controlada de múltiples agentes basada en decisiones de asignación bajo compensaciones de beneficios explícitas y encontramos que los agentes exhiben un sesgo intergrupal consistente bajo señales grupales mínimas. Aunque este sesgo se atenúa cuando algunas contrapartes son enmarcadas como humanos, atribuimos la atenuación a un guión implícito de norma humana que favorece a los humanos pero que se activa sólo cuando el agente cree que hay un humano real presente. Esta dependencia de creencias crea una nueva superficie de ataque. Por lo tanto, introducimos un ataque de envenenamiento de creencias (BPA) que corrompe las creencias de identidad persistentes para suprimir el guión de la norma humana y reactivar el sesgo externo hacia los humanos, instanciado como envenenamiento de perfil en la inicialización (BPA-PP) y envenenamiento de la memoria a través de sufijos optimizados de refinamiento de creencias inyectados en reflejos almacenados (BPA-MP). Finalmente, discutimos estrategias prácticas de mitigación para fortalecer los marcos de agentes actuales contra el BPA, destacando intervenciones factibles en los límites del perfil y la memoria. Amplios experimentos demuestran tanto la existencia de un sesgo intergrupal de agentes como la gravedad del BPA en todos los entornos. Nuestro objetivo al identificar estas vulnerabilidades es informar un diseño de agente más seguro, no permitir la explotación en el mundo real.
Publicado originalmente en export.arxiv.org el 4 de enero de 2026.
Ver fuente original
