En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->DeepContext: Detección con estado en tiempo real de deriva de intención adversaria de múltiples turnos en LLM

DeepContext: Detección con estado en tiempo real de deriva de intención adversaria de múltiples turnos en LLM

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Si bien las capacidades del modelo de lenguaje grande (LLM) se han ampliado, las barreras de seguridad permanecen en gran medida sin estado y tratan los diálogos de múltiples turnos como una serie de eventos desconectados. Esta falta de conciencia temporal facilita una “brecha de seguridad” donde las tácticas adversas, como Crescendo y ActorAttack, lentamente hacen pasar intenciones maliciosas a través de los límites de los turnos para evitar los filtros sin estado. Presentamos DeepContext, un marco de monitoreo con estado diseñado para mapear la trayectoria temporal de la intención del usuario. DeepContext descarta el modelo de evaluación aislada en favor de una arquitectura de red neuronal recurrente (RNN) que ingiere una secuencia de incorporaciones de niveles de turnos ajustadas. Al propagar un estado oculto a lo largo de la conversación, DeepContext captura la acumulación incremental de riesgo que los modelos sin estado pasan por alto. Nuestra evaluación demuestra que DeepContext supera significativamente las líneas de base existentes en la detección de jailbreak de múltiples turnos, logrando una puntuación F1 de última generación de 0,84, lo que representa una mejora sustancial con respecto a las barreras de seguridad de los proveedores de nube hiperescaladores y a los principales modelos de peso abierto como Llama-Prompt-Guard-2 (0,67) y Granite-Guardian (0,67). Además, DeepContext mantiene una sobrecarga de inferencia inferior a 20 ms en una GPU T4, lo que garantiza la viabilidad de las aplicaciones en tiempo real. Estos resultados sugieren que modelar la evolución secuencial de la intención es una alternativa más efectiva y computacionalmente eficiente que implementar modelos masivos y sin estado.

Publicado originalmente en export.arxiv.org el 19 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web