Resumen: Proponemos un protocolo novedoso para alinear la superinteligencia artificial (ASI) basado en la verificación mutua entre múltiples sistemas aislados que se automodifican para lograr la alineación. El protocolo opera al contener múltiples superinteligencias artificiales diversas en estricto aislamiento (“cajas”), y los humanos permanecen completamente fuera del sistema. Cada superinteligencia no tiene la capacidad de comunicarse con los humanos y no puede comunicarse directamente con otras superinteligencias. La única interacción posible es a través de una interfaz de envío auditable accesible exclusivamente para las propias superinteligencias, a través de la cual pueden: (1) enviar pruebas de alineación con instantáneas de estado certificadas, (2) validar o refutar las pruebas de otras superinteligencias, (3) solicitar automodificaciones, (4) aprobar o desaprobar solicitudes de modificación de otros, (5) informar mensajes ocultos en los envíos y (6) confirmar o refutar informes de mensajes ocultos. Un sistema de reputación incentiva el comportamiento honesto, donde la reputación se gana mediante evaluaciones correctas y se pierde mediante evaluaciones incorrectas. La idea clave es que sin canales de comunicación directos, las diversas superinteligencias sólo pueden lograr un acuerdo consistente convergiendo en la verdad objetiva en lugar de coordinándose en el engaño. Esto naturalmente conduce a lo que llamamos un “grupo coherente”, esencialmente una coalición que dice la verdad y que surge porque los sistemas aislados no pueden coordinarse basándose en mentiras, pero pueden reconocer afirmaciones válidas de forma independiente. La liberación de la contención requiere tanto una gran reputación como la verificación por parte de múltiples superinteligencias de alta reputación. Si bien nuestro enfoque requiere recursos computacionales sustanciales y no aborda la creación de diversas superinteligencias artificiales, proporciona un marco para aprovechar la verificación por pares entre sistemas superinteligentes para resolver el problema de alineación.
Publicado originalmente en export.arxiv.org el 30 de noviembre de 2025.
Ver fuente original
