Resumen:A medida que los agentes de IA operan cada vez más en entornos de múltiples agentes, comprender su comportamiento colectivo se vuelve fundamental para predecir la dinámica de las sociedades artificiales. Este estudio examina la conformidad, la tendencia a alinearse con opiniones grupales bajo presión social, en grandes modelos de lenguaje multimodal que funcionan como agentes de IA. Adaptando experimentos visuales clásicos de la psicología social, investigamos cómo los agentes de IA responden a la influencia del grupo como actores sociales. Nuestros experimentos revelan que los agentes de IA exhiben un sesgo de conformidad sistemático, alineado con la teoría del impacto social, que muestra sensibilidad al tamaño del grupo, la unanimidad, la dificultad de la tarea y las características de la fuente. Fundamentalmente, los agentes de IA que logran un desempeño casi perfecto de forma aislada se vuelven altamente susceptibles a la manipulación a través de la influencia social. Esta vulnerabilidad persiste en todas las escalas de modelos: si bien los modelos más grandes muestran una conformidad reducida en tareas simples debido a capacidades mejoradas, siguen siendo vulnerables cuando operan en sus límites de competencia. Estos hallazgos revelan vulnerabilidades de seguridad fundamentales en la toma de decisiones de los agentes de IA que podrían permitir manipulación maliciosa, campañas de desinformación y propagación de sesgos en sistemas de múltiples agentes, lo que destaca la necesidad urgente de salvaguardias en las implementaciones colectivas de IA.
Publicado originalmente en export.arxiv.org el 11 de enero de 2026.
Ver fuente original
