Un marco para AGI inherentemente más seguro a través de la inferencia activa mediada por el lenguaje

Resumen: Este documento propone un marco novedoso para desarrollar inteligencia general artificial segura (AGI) combinando principios de inferencia activa con modelos de idiomas grandes (LLM). Argumentamos que los enfoques tradicionales para la seguridad de la IA, centrados en la interpretabilidad post-hoc y la ingeniería de recompensas, tienen limitaciones fundamentales. Presentamos una arquitectura donde las garantías de seguridad se integran en el diseño central del sistema a través de representaciones de creencias transparentes y alineación del valor jerárquico. Nuestro marco aprovecha el lenguaje natural como un medio para representar y manipular creencias, permitiendo la supervisión humana directa mientras mantiene la tractabilidad computacional. La arquitectura implementa un sistema de múltiples agentes donde los agentes se autoorganizan de acuerdo con los principios de inferencia activa, con preferencias y limitaciones de seguridad que fluyen a través de las mantas jerárquicas de Markov. Esbozamos mecanismos específicos para garantizar la seguridad, incluida: (1) separación explícita de creencias y preferencias en el lenguaje natural, (2) racionalidad limitada a través de la minimización de energía libre de recursos y (3) seguridad compositiva a través de estructuras de agentes modulares. El documento concluye con una agenda de investigación centrada en el punto de referencia del Corpus de Abstracción y Razonamiento (ARC), proponiendo experimentos para validar las propiedades de seguridad de nuestro marco. Nuestro enfoque ofrece un camino hacia el desarrollo AGI que es inherentemente más seguro, en lugar de modernizado con medidas de seguridad.

Publicado Originalme en export.arxiv.org El 10 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La descarga: gasto de energía de IA de Google y entregando datos de ADN a la policía

El desastre espera si no aseguramos IoT ahora

Comprender y mitigar el sobrerefusal en LLMS desde una perspectiva de inauguración del límite de decisión de seguridad

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido