Resumen: Examinamos el filtrado de creencias como un mecanismo para el control epistémico de los agentes artificiales, centrándose en la regulación de los estados cognitivos internos representados como expresiones lingüísticas. Este mecanismo se desarrolla dentro del marco del colector semántico, donde los estados de creencia son conjuntos dinámicos y estructurados de fragmentos de lenguaje natural. Los filtros de creencias actúan como operaciones conscientes de contenido en estos fragmentos en varias transiciones cognitivas. Este documento ilustra cómo la interpretabilidad y la modularidad inherentes de una arquitectura cognitiva de este tipo lingüísticamente permiten directamente el filtrado de creencias, ofreciendo un enfoque de principios para la regulación de los agentes. El estudio destaca el potencial para mejorar la seguridad y la alineación de la IA a través de intervenciones estructuradas en el espacio semántico interno de un agente y señala nuevas direcciones para la gobernanza cognitiva arquitectónicamente integrada.
Publicado Originalme en rss.arxiv.org El 8 de mayo de 2025.
Ver Fuente Original