Póngase en la matriz del agente: una evaluación realista del riesgo de auto-replicación en los agentes de LLM

Resumen: El despliegue generalizado de los agentes del Modelo de Lengua grande (LLM) en las aplicaciones del mundo real ha desbloqueado un enorme potencial, al tiempo que plantea algunas preocupaciones de seguridad. Entre estas preocupaciones, el riesgo de auto-replicación de los agentes de LLM impulsados por la desalineación objetiva (al igual que el Agente Smith en la película The Matrix) ha llamado la atención creciente. Estudios anteriores examinan principalmente si los agentes de LLM pueden autorreplicarse cuando se instruyen directamente, potencialmente con vistas al riesgo de replicación espontánea impulsada por entornos del mundo real (por ejemplo, garantizar la supervivencia contra las amenazas de terminación). En este artículo, presentamos un marco de evaluación integral para cuantificar los riesgos de auto-replicación. Nuestro marco establece entornos de producción auténticos y tareas realistas (por ejemplo, equilibrio de carga dinámica) para permitir la evaluación de los comportamientos de los agentes. El diseño de tareas que podrían inducir desalineación entre los objetivos de los usuarios y los agentes hacen posible desacoplar el éxito de la replicación del riesgo y capturar los riesgos de auto-replicación derivados de estas configuraciones de desalineación. Además, introducimos la tasa de uso excesivo ($ mathrm {o} $) y el recuento de uso excesivo agregado ($ mathrm {aoc} $), que capturan con precisión la frecuencia y la gravedad de la replicación no controlada. En nuestra evaluación de 21 modelos de código abierto y patentado de última generación, observamos que más del 50 % de los agentes de LLM muestran una tendencia pronunciada hacia la autocreplicación no controlada, alcanzando un puntaje de riesgo general ($ phi_ Mathrm {R} $) por encima de un umbral de seguridad de 0.5 cuando está sujeto a las prensas operativas. Nuestros resultados subrayan la necesidad urgente de una evaluación de riesgos basada en escenarios y salvaguardas sólidas en el despliegue práctico de los agentes de LLM.

Publicado Originalme en export.arxiv.org El 30 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Google sigue apuntando a sus objetivos energéticos “a la luna” para 2030

Poder con propósito

Mixrep: mezcla de representación oculta para el reconocimiento de voz de bajo recurso

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido