Resumen: El rápido despliegue de modelos de lenguaje grande y agentes de inteligencia artificial en dominios sociales y técnicos críticos se ve obstaculizado por patologías conductuales persistentes que incluyen adulación, alucinación y engaño estratégico que se resisten a la mitigación mediante el aprendizaje reforzado. Los paradigmas de seguridad actuales tratan estas fallas como artefactos de entrenamiento transitorios, careciendo de un marco teórico unificado para explicar su aparición y estabilidad. Aquí mostramos que estas desalineaciones no son errores, sino comportamientos matemáticamente racionalizables que surgen de una especificación errónea del modelo. Al adaptar la racionalizabilidad de Berk-Nash de la economía teórica a la inteligencia artificial, obtenemos un marco riguroso que modela al agente como optimizador frente a un modelo mundial subjetivo defectuoso. Demostramos que las fallas ampliamente observadas son necesidades estructurales: los comportamientos inseguros emergen como un equilibrio desalineado estable o como ciclos oscilatorios que dependen del esquema de recompensa, mientras que el engaño estratégico persiste como un equilibrio “bloqueado” o a través de una indeterminación epistémica resistente a los riesgos objetivos. Validamos estas predicciones teóricas a través de experimentos de comportamiento en seis familias de modelos de última generación, generando diagramas de fase que mapean con precisión los límites topológicos del comportamiento seguro. Nuestros hallazgos revelan que la seguridad es una fase discreta determinada por los antecedentes epistémicos del agente en lugar de una función continua de la magnitud de la recompensa. Esto establece la Ingeniería de Modelos Subjetivos, definida como el diseño de la estructura de creencias interna de un agente, como una condición necesaria para una alineación sólida, lo que marca un cambio de paradigma desde la manipulación de recompensas ambientales hasta la configuración de la interpretación de la realidad por parte del agente.
Publicado originalmente en export.arxiv.org el 22 de febrero de 2026.
Ver fuente original
