Resumen: a medida que los agentes del Modelo de Lengua grande (LLM) se vuelven más generalizados, aumentan los riesgos de desalineación asociados. El trabajo previo ha examinado la capacidad de los agentes para promulgar el comportamiento desalineado (capacidad de desalineación) y su cumplimiento de las instrucciones dañinas (propensión a uso indebido). Sin embargo, la probabilidad de que los agentes intenten comportamientos desalineados en entornos del mundo real (propensión a la desalineación) sigue siendo poco conocida. Introducimos un punto de referencia de propensión a la desalineación, la moderno de agente, que consiste en un conjunto de escenarios realistas en los que los agentes de LLM tienen la oportunidad de mostrar un comportamiento desalineado. Organizamos nuestras evaluaciones en subcategorías de comportamientos desalineados, que incluyen guardia de objetivos, resistencia al cierre, saco de arena y búsqueda de energía. Reportamos el rendimiento de los modelos fronterizos en nuestro punto de referencia, observando una desalineación más alta en promedio al evaluar modelos más capaces. Finalmente, variamos sistemáticamente las personalidades de los agentes a través de diferentes indicaciones del sistema. Encontramos que las características de la persona pueden influir dramáticamente e impredeciblemente en las tendencias de desalineación, ocasionalmente mucho más que la elección del modelo en sí, destacando la importancia de la ingeniería impulsada del sistema cuidadoso para los agentes de IA desplegados. Nuestro trabajo destaca la falla de los métodos de alineación actuales para generalizar a los agentes de LLM, y subraya la necesidad de evaluaciones de propensión adicionales a medida que los sistemas autónomos se vuelven más frecuentes.
Publicado Originalme en rss.arxiv.org El 4 de junio de 2025.
Ver Fuente Original