Resumen: Este documento propone un marco novedoso para desarrollar inteligencia general artificial segura (AGI) combinando principios de inferencia activa con modelos de idiomas grandes (LLM). Argumentamos que los enfoques tradicionales para la seguridad de la IA, centrados en la interpretabilidad post-hoc y la ingeniería de recompensas, tienen limitaciones fundamentales. Presentamos una arquitectura donde las garantías de seguridad se integran en el diseño central del sistema a través de representaciones de creencias transparentes y alineación del valor jerárquico. Nuestro marco aprovecha el lenguaje natural como un medio para representar y manipular creencias, permitiendo la supervisión humana directa mientras mantiene la tractabilidad computacional. La arquitectura implementa un sistema de múltiples agentes donde los agentes se autoorganizan de acuerdo con los principios de inferencia activa, con preferencias y limitaciones de seguridad que fluyen a través de las mantas jerárquicas de Markov. Esbozamos mecanismos específicos para garantizar la seguridad, incluida: (1) separación explícita de creencias y preferencias en el lenguaje natural, (2) racionalidad limitada a través de la minimización de energía libre de recursos y (3) seguridad compositiva a través de estructuras de agentes modulares. El documento concluye con una agenda de investigación centrada en el punto de referencia del Corpus de Abstracción y Razonamiento (ARC), proponiendo experimentos para validar las propiedades de seguridad de nuestro marco. Nuestro enfoque ofrece un camino hacia el desarrollo AGI que es inherentemente más seguro, en lugar de modernizado con medidas de seguridad.
Publicado Originalme en export.arxiv.org El 10 de agosto de 2025.
Ver Fuente Original