DeepContext: Detección con estado en tiempo real de deriva de intención adversaria de múltiples turnos en LLM

Resumen:Si bien las capacidades del modelo de lenguaje grande (LLM) se han ampliado, las barreras de seguridad permanecen en gran medida sin estado y tratan los diálogos de múltiples turnos como una serie de eventos desconectados. Esta falta de conciencia temporal facilita una “brecha de seguridad” donde las tácticas adversas, como Crescendo y ActorAttack, lentamente hacen pasar intenciones maliciosas a través de los límites de los turnos para evitar los filtros sin estado. Presentamos DeepContext, un marco de monitoreo con estado diseñado para mapear la trayectoria temporal de la intención del usuario. DeepContext descarta el modelo de evaluación aislada en favor de una arquitectura de red neuronal recurrente (RNN) que ingiere una secuencia de incorporaciones de niveles de turnos ajustadas. Al propagar un estado oculto a lo largo de la conversación, DeepContext captura la acumulación incremental de riesgo que los modelos sin estado pasan por alto. Nuestra evaluación demuestra que DeepContext supera significativamente las líneas de base existentes en la detección de jailbreak de múltiples turnos, logrando una puntuación F1 de última generación de 0,84, lo que representa una mejora sustancial con respecto a las barreras de seguridad de los proveedores de nube hiperescaladores y a los principales modelos de peso abierto como Llama-Prompt-Guard-2 (0,67) y Granite-Guardian (0,67). Además, DeepContext mantiene una sobrecarga de inferencia inferior a 20 ms en una GPU T4, lo que garantiza la viabilidad de las aplicaciones en tiempo real. Estos resultados sugieren que modelar la evolución secuencial de la intención es una alternativa más efectiva y computacionalmente eficiente que implementar modelos masivos y sin estado.

Publicado originalmente en export.arxiv.org el 19 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

OS de memoria del agente de IA

Avance de solucionadores estocásticos de 3-SAT disipando restricciones sobrealimentadas

Murphys Leyes de alineación de AI: por qué la brecha siempre gana

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido