La formación de personalidad psicométrica modula las capacidades y la seguridad en los modelos de idiomas

Resumen: Los modelos de lenguaje grande median cada vez más las interacciones de alto riesgo, intensificando la investigación sobre sus capacidades y seguridad. Si bien el trabajo reciente ha demostrado que los LLM exhiben rasgos de personalidad sintéticos consistentes y medibles, se sabe poco sobre cómo la modulación de estos rasgos afecta el comportamiento del modelo. Abordamos esta brecha investigando cómo el control de la personalidad psicométrica fundamentada en el marco Big Five influye en el comportamiento de la IA en el contexto de la capacidad y los puntos de referencia de seguridad. Nuestros experimentos revelan efectos sorprendentes: por ejemplo, la reducción de la conciencia conduce a caídas significativas en las métricas relevantes para la seguridad en los puntos de referencia como WMDP, verdadera, ética y sycofancia, así como en la reducción en las capacidades generales medidas por MMLU. Estos hallazgos destacan la configuración de la personalidad como un eje poderoso y subexplorado de control del modelo que interactúa con la seguridad y la competencia general. Discutimos las implicaciones para la evaluación de seguridad, las estrategias de alineación, el comportamiento del modelo de dirección después del despliegue y los riesgos asociados con la posible explotación de estos hallazgos. Nuestros hallazgos motivan una nueva línea de investigación sobre evaluaciones de seguridad sensibles a la personalidad y control dinámico del comportamiento en LLM.

Publicado Originalme en export.arxiv.org El 22 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Waymo podría hacer que tu próximo auto sea autónomo

Vortex: alineando la utilidad de las tareas y las preferencias humanas a través de la configuración de la recompensa guiada por LLM

Estructuración del razonamiento para reglas complejas más allá de las representaciones planas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido