Detección de la autoconservación intrínseca e instrumental en agentes autónomos: el protocolo unificado de interés de continuación

Resumen: Probamos si los agentes con objetivos de continuación terminales (Tipo A) producen estados latentes con mayor entropía de entrelazamiento que los agentes cuya continuación es meramente instrumental (Tipo B). Un mayor entrelazamiento refleja un acoplamiento estadístico entre particiones más fuerte.
En agentes de gridworld con objetivos de verdad terrestre conocidos, UCIP logra una precisión de detección del 100 % y 1,0 AUC-ROC en una evaluación no adversaria retenida bajo la puerta congelada de la Fase I. La brecha de entrelazamiento entre los agentes Tipo A y Tipo B es Delta = 0,381 (p <0,001, prueba de permutación). Pearson r = 0,934 en un barrido de interpolación de 11 puntos indica que, dentro de esta familia sintética, UCIP rastrea cambios graduales en la ponderación de continuación en lugar de simplemente una etiqueta binaria. Entre los modelos probados, sólo el QBM alcanza un Delta positivo. Todos los cálculos son clásicos; "cuanto" se refiere únicamente al formalismo matemático. La UCIP no detecta conciencia ni experiencia subjetiva; detecta estructura estadística en representaciones latentes que se correlacionan con objetivos conocidos.

Publicado originalmente en export.arxiv.org el 12 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La sociedad de la mente cumple con la estrategia en tiempo real: un marco jerárquico de múltiples agentes para el razonamiento estratégico

Spaner: Alineador rápido compartido para la representación semántica multimodal

Con-QA: QA de preservación de la privacidad utilizando Cloud LLMS en el dominio del contrato

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido