Alineación de la superinteligencia artificial mediante un protocolo de cajas múltiples

Resumen: Proponemos un protocolo novedoso para alinear la superinteligencia artificial (ASI) basado en la verificación mutua entre múltiples sistemas aislados que se automodifican para lograr la alineación. El protocolo opera al contener múltiples superinteligencias artificiales diversas en estricto aislamiento (“cajas”), y los humanos permanecen completamente fuera del sistema. Cada superinteligencia no tiene la capacidad de comunicarse con los humanos y no puede comunicarse directamente con otras superinteligencias. La única interacción posible es a través de una interfaz de envío auditable accesible exclusivamente para las propias superinteligencias, a través de la cual pueden: (1) enviar pruebas de alineación con instantáneas de estado certificadas, (2) validar o refutar las pruebas de otras superinteligencias, (3) solicitar automodificaciones, (4) aprobar o desaprobar solicitudes de modificación de otros, (5) informar mensajes ocultos en los envíos y (6) confirmar o refutar informes de mensajes ocultos. Un sistema de reputación incentiva el comportamiento honesto, donde la reputación se gana mediante evaluaciones correctas y se pierde mediante evaluaciones incorrectas. La idea clave es que sin canales de comunicación directos, las diversas superinteligencias sólo pueden lograr un acuerdo consistente convergiendo en la verdad objetiva en lugar de coordinándose en el engaño. Esto naturalmente conduce a lo que llamamos un “grupo coherente”, esencialmente una coalición que dice la verdad y que surge porque los sistemas aislados no pueden coordinarse basándose en mentiras, pero pueden reconocer afirmaciones válidas de forma independiente. La liberación de la contención requiere tanto una gran reputación como la verificación por parte de múltiples superinteligencias de alta reputación. Si bien nuestro enfoque requiere recursos computacionales sustanciales y no aborda la creación de diversas superinteligencias artificiales, proporciona un marco para aprovechar la verificación por pares entre sistemas superinteligentes para resolver el problema de alineación.

Publicado originalmente en export.arxiv.org el 30 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

“El gobierno de la India envió un aviso a las empresas privadas la semana pasada dándoles 90 días para garantizar que una aplicación gubernamental estuviera “preinstalada en todos los teléfonos móviles fabricados o importados para su uso en la India”.

Por qué funciona la autorrecompensa: garantías teóricas para la alineación iterativa de modelos lingüísticos

Más allá de la puntuación alta: perfiles de habilidad prosocial de poblaciones de múltiples agentes

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido