Resumen: Los sistemas de IA multiagente requieren una comunicación consistente, pero carecemos de métodos para verificar que los agentes comparten la misma comprensión de los términos utilizados. El lenguaje natural es interpretable pero vulnerable a la deriva semántica, mientras que los protocolos aprendidos son eficientes pero opacos. Proponemos un protocolo de certificación basado en el modelo de estímulo-significado, donde los agentes se prueban en eventos observables compartidos y los términos se certifican si el desacuerdo empírico cae por debajo de un umbral estadístico. En este protocolo, los agentes que restringen su razonamiento a términos certificados (“razonamiento central protegido”) logran un desacuerdo demostrablemente limitado. También describimos mecanismos para detectar derivas (recertificación) y recuperar vocabulario compartido (renegociación). En simulaciones con distintos grados de divergencia semántica, la protección del núcleo reduce el desacuerdo entre un 72% y un 96%. En una validación con modelos de lenguaje afinados, el desacuerdo se reduce en un 51%. Nuestro marco proporciona un primer paso hacia una comunicación verificable de agente a agente.
Publicado originalmente en export.arxiv.org el 18 de febrero de 2026.
Ver fuente original
