En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Codificación y cumplimiento de reglas en modelos de lenguaje grandes: un análisis teórico de la información

Codificación y cumplimiento de reglas en modelos de lenguaje grandes: un análisis teórico de la información

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El diseño de agentes críticos para la seguridad basados ​​en modelos de lenguaje grande (LLM) requiere más que una simple ingeniería rápida. Este artículo presenta un análisis teórico de la información integral sobre cómo las codificaciones de reglas en los mensajes del sistema influyen en los mecanismos de atención y el comportamiento de cumplimiento. Demostramos que los formatos de reglas con baja entropía sintáctica y anclajes altamente concentrados reducen la entropía de atención y mejoran la fidelidad del puntero, pero revelan una compensación fundamental entre la redundancia de anclajes y la entropía de atención que trabajos anteriores no lograron reconocer. A través del análisis formal de múltiples arquitecturas de atención, incluidos mecanismos causales, bidireccionales, locales dispersos, kernelizados y de atención cruzada, establecemos límites a la fidelidad de los punteros y mostramos cómo las estrategias de colocación de anclajes deben tener en cuenta los objetivos de fidelidad y entropía en competencia. Combinando estos conocimientos con una arquitectura dinámica de verificación de reglas, proporcionamos una prueba formal de que la recarga en caliente de conjuntos de reglas verificadas aumenta la probabilidad asintótica de resultados compatibles. Estos hallazgos subrayan la necesidad de un diseño de anclaje basado en principios y mecanismos de aplicación dual para proteger a los agentes basados ​​en LLM contra ataques de inyección rápida y al mismo tiempo mantener el cumplimiento en dominios en evolución.

Publicado originalmente en export.arxiv.org el 7 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web