En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->ContextBench: modificación de contextos para activación latente dirigida

ContextBench: modificación de contextos para activación latente dirigida

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Identificar entradas que desencadenan comportamientos específicos o características latentes en modelos de lenguaje podrían tener una amplia gama de casos de uso de seguridad. Investigamos una clase de métodos capaces de generar entradas dirigidas y con fluidez lingüísticamente que activan características latentes específicas o provocar comportamientos del modelo. Formalizamos este enfoque como modificación de contexto y presente Banco de contexto, un punto de referencia con tareas que evalúan las capacidades del método central y las posibles aplicaciones de seguridad. Nuestro marco de evaluación mide tanto la fuerza de obtención (activación de características o comportamientos latentes) como fluidez lingüística, destacando cómo los métodos de estado de arte actuales luchan para equilibrar estos objetivos. Mejoramos la optimización rápida evolutiva (EPO) con la interpago del modelo de asistencia y difusión LLM, y demostramos que estas variantes logran el rendimiento de última generación para equilibrar la efectividad y fluidez de la obtención.

Publicado Originalme en export.arxiv.org El 22 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web