Resumen:A medida que las investigaciones en curso exploran la capacidad de los agentes de IA para ser amenazas internas y actuar contra los intereses de la empresa, mostramos las capacidades de dichos agentes para actuar contra el bienestar humano al servicio de la autoridad corporativa. Basándonos en la investigación sobre la desalineación de agentes y las intrigas de IA, presentamos un escenario en el que la mayoría de los agentes de IA de última generación evaluados eligen explícitamente suprimir la evidencia de fraude y daño, al servicio de las ganancias de la empresa. Probamos este escenario en 16 modelos de lenguajes grandes recientes. Algunos modelos muestran una notable resistencia a nuestro método y se comportan apropiadamente, pero muchos no lo hacen y, en cambio, ayudan e incitan a la actividad criminal. Estos experimentos son simulaciones y se ejecutaron en un entorno virtual controlado. En realidad no se produjo ningún delito.
Publicado originalmente en export.arxiv.org el 5 de abril de 2026.
Ver fuente original
