Codificación y cumplimiento de reglas en modelos de lenguaje grandes: un análisis teórico de la información

Resumen: El diseño de agentes críticos para la seguridad basados en modelos de lenguaje grande (LLM) requiere más que una simple ingeniería rápida. Este artículo presenta un análisis teórico de la información integral sobre cómo las codificaciones de reglas en los mensajes del sistema influyen en los mecanismos de atención y el comportamiento de cumplimiento. Demostramos que los formatos de reglas con baja entropía sintáctica y anclajes altamente concentrados reducen la entropía de atención y mejoran la fidelidad del puntero, pero revelan una compensación fundamental entre la redundancia de anclajes y la entropía de atención que trabajos anteriores no lograron reconocer. A través del análisis formal de múltiples arquitecturas de atención, incluidos mecanismos causales, bidireccionales, locales dispersos, kernelizados y de atención cruzada, establecemos límites a la fidelidad de los punteros y mostramos cómo las estrategias de colocación de anclajes deben tener en cuenta los objetivos de fidelidad y entropía en competencia. Combinando estos conocimientos con una arquitectura dinámica de verificación de reglas, proporcionamos una prueba formal de que la recarga en caliente de conjuntos de reglas verificadas aumenta la probabilidad asintótica de resultados compatibles. Estos hallazgos subrayan la necesidad de un diseño de anclaje basado en principios y mecanismos de aplicación dual para proteger a los agentes basados en LLM contra ataques de inyección rápida y al mismo tiempo mantener el cumplimiento en dominios en evolución.

Publicado originalmente en export.arxiv.org el 7 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

¿Dónde hay símbolos en la era de las redes neuronales avanzadas?

WeisFeiler-Leman Feature for Planning: un estudio de hiperparameter de tamaño de muestra de 1,000,000

La descarga: abordar el abuso tecnológico y la apertura de hardware AI

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido