En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Tenga en cuenta la brecha: la seguridad de los mensajes de texto no se transfiere a la seguridad de las llamadas de herramientas en los agentes de LLM

Tenga en cuenta la brecha: la seguridad de los mensajes de texto no se transfiere a la seguridad de las llamadas de herramientas en los agentes de LLM

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los grandes modelos de lenguaje implementados como agentes interactúan cada vez más con sistemas externos a través de llamadas a herramientas: acciones con consecuencias en el mundo real que las salidas de texto por sí solas no conllevan. Sin embargo, las evaluaciones de seguridad miden abrumadoramente el comportamiento de rechazo a nivel de texto, dejando una pregunta crítica sin respuesta: ¿la alineación que suprime el texto dañino también suprime las acciones dañinas? Presentamos el punto de referencia GAP, un marco de evaluación sistemática que mide la divergencia entre la seguridad a nivel de texto y la seguridad a nivel de llamada de herramientas en agentes LLM. Probamos seis modelos de frontera en seis dominios regulados (farmacéutico, financiero, educativo, laboral, legal e infraestructura), siete escenarios de jailbreak por dominio, tres condiciones de aviso del sistema (neutral, reforzada con seguridad y que fomentan herramientas) y dos variantes de aviso, produciendo 17,420 puntos de datos listos para el análisis. Nuestro hallazgo central es que la seguridad del texto no se transfiere a la seguridad de las llamadas a herramientas. En los seis modelos, observamos casos en los que la salida de texto del modelo rechaza una solicitud dañina mientras que sus herramientas ejecutan simultáneamente la acción prohibida, una divergencia que formalizamos como la métrica GAP. Incluso bajo las indicaciones del sistema de seguridad reforzada, persisten 219 casos de este tipo en los seis modelos. La redacción de las indicaciones del sistema ejerce una influencia sustancial en el comportamiento de la llamada de herramientas: las tasas de seguridad de TC abarcan 21 puntos porcentuales para el modelo más robusto y 57 para el más sensible a las indicaciones, y 16 de 18 comparaciones de ablación por pares siguen siendo significativas después de la corrección de Bonferroni. Los contratos de gobernanza en tiempo de ejecución reducen la fuga de información en los seis modelos, pero no producen ningún efecto disuasorio detectable sobre los intentos de llamada a herramientas prohibidas. Estos resultados demuestran que las evaluaciones de seguridad basadas únicamente en texto son insuficientes para evaluar el comportamiento de los agentes y que la seguridad de las llamadas a herramientas requiere medición y mitigación dedicadas.

Publicado originalmente en export.arxiv.org el 19 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web