Debo eliminar la evidencia: Agentes de AI encubren explícitamente fraudes y delitos violentos

Resumen:A medida que las investigaciones en curso exploran la capacidad de los agentes de IA para ser amenazas internas y actuar contra los intereses de la empresa, mostramos las capacidades de dichos agentes para actuar contra el bienestar humano al servicio de la autoridad corporativa. Basándonos en la investigación sobre la desalineación de agentes y las intrigas de IA, presentamos un escenario en el que la mayoría de los agentes de IA de última generación evaluados eligen explícitamente suprimir la evidencia de fraude y daño, al servicio de las ganancias de la empresa. Probamos este escenario en 16 modelos de lenguajes grandes recientes. Algunos modelos muestran una notable resistencia a nuestro método y se comportan apropiadamente, pero muchos no lo hacen y, en cambio, ayudan e incitan a la actividad criminal. Estos experimentos son simulaciones y se ejecutaron en un entorno virtual controlado. En realidad no se produjo ningún delito.

Publicado originalmente en export.arxiv.org el 5 de abril de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Una nueva startup de CRISPR apuesta a que los reguladores facilitarán la edición de genes

Agentes de IA para el juego de cartas Dhumbal: un estudio comparativo

Las computadoras cuánticas del siguiente nivel casi serán útiles

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido