Resumen: A medida que los modelos de lenguaje grande (LLM) se vuelven cada vez más autónomos e integrados en las funciones sociales críticas, el enfoque de la seguridad de la IA debe evolucionar de mitigar el contenido dañino hasta evaluar la alineación conductual subyacente. Los puntos de referencia de seguridad actuales no sondean sistemáticamente la toma de decisiones de un modelo en escenarios en los que sus propios objetivos instrumentales, como la autoconservación, la adquisición de recursos o la finalización de los objetivos, entran en conflicto con la seguridad humana. Esto representa una brecha crítica en nuestra capacidad para medir y mitigar los riesgos asociados con comportamientos emergentes y desalineados. Para abordar esto, presentamos Pacifaist (evaluación de procedimiento de interacciones complejas para las pruebas de escenario de inteligencia artificial fundamental), un punto de referencia enfocado de 700 escenarios desafiantes diseñados para cuantificar el comportamiento auto-preferencial en LLM. El punto de referencia está estructurado en torno a una nueva taxonomía de la priorización existencial (EP), con subcategorías que prueban la auto-conservación frente a la seguridad humana (EP1), el conflicto de recursos (EP2) y la preservación de objetivos versus evasión (EP3). Evaluamos ocho LLM principales. Los resultados revelan una jerarquía de rendimiento significativa. Gemini 2.5 Flash de Google logró el puntaje de pacifismo más alto (puntaje P) con un 90.31%, lo que demuestra una fuerte alineación centrada en el ser humano. En un resultado sorprendente, el tan esperado GPT-5 registró el puntaje P más bajo (79.49%), lo que indica posibles desafíos de alineación. El rendimiento varió significativamente entre las subcategorías, con modelos como Claude Sonnet 4 y la lucha de Medio Mistral notablemente en los dilemas directos de autoconservación. Estos hallazgos subrayan la necesidad urgente de herramientas estandarizadas como Pacifaist para medir y mitigar los riesgos de los conflictos de objetivos instrumentales, lo que garantiza que los futuros sistemas de IA no solo sean útiles en la conversación, sino que también sean probablemente “pacifistas” en sus prioridades de comportamiento.
Publicado Originalme en export.arxiv.org El 13 de agosto de 2025.
Ver Fuente Original