Resumen: Los modelos de lenguaje grande median cada vez más las interacciones de alto riesgo, intensificando la investigación sobre sus capacidades y seguridad. Si bien el trabajo reciente ha demostrado que los LLM exhiben rasgos de personalidad sintéticos consistentes y medibles, se sabe poco sobre cómo la modulación de estos rasgos afecta el comportamiento del modelo. Abordamos esta brecha investigando cómo el control de la personalidad psicométrica fundamentada en el marco Big Five influye en el comportamiento de la IA en el contexto de la capacidad y los puntos de referencia de seguridad. Nuestros experimentos revelan efectos sorprendentes: por ejemplo, la reducción de la conciencia conduce a caídas significativas en las métricas relevantes para la seguridad en los puntos de referencia como WMDP, verdadera, ética y sycofancia, así como en la reducción en las capacidades generales medidas por MMLU. Estos hallazgos destacan la configuración de la personalidad como un eje poderoso y subexplorado de control del modelo que interactúa con la seguridad y la competencia general. Discutimos las implicaciones para la evaluación de seguridad, las estrategias de alineación, el comportamiento del modelo de dirección después del despliegue y los riesgos asociados con la posible explotación de estos hallazgos. Nuestros hallazgos motivan una nueva línea de investigación sobre evaluaciones de seguridad sensibles a la personalidad y control dinámico del comportamiento en LLM.
Publicado Originalme en export.arxiv.org El 22 de septiembre de 2025.
Ver Fuente Original