ContextBench: modificación de contextos para activación latente dirigida

Resumen: Identificar entradas que desencadenan comportamientos específicos o características latentes en modelos de lenguaje podrían tener una amplia gama de casos de uso de seguridad. Investigamos una clase de métodos capaces de generar entradas dirigidas y con fluidez lingüísticamente que activan características latentes específicas o provocar comportamientos del modelo. Formalizamos este enfoque como modificación de contexto y presente Banco de contexto, un punto de referencia con tareas que evalúan las capacidades del método central y las posibles aplicaciones de seguridad. Nuestro marco de evaluación mide tanto la fuerza de obtención (activación de características o comportamientos latentes) como fluidez lingüística, destacando cómo los métodos de estado de arte actuales luchan para equilibrar estos objetivos. Mejoramos la optimización rápida evolutiva (EPO) con la interpago del modelo de asistencia y difusión LLM, y demostramos que estas variantes logran el rendimiento de última generación para equilibrar la efectividad y fluidez de la obtención.

Publicado Originalme en export.arxiv.org El 22 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Colaboración y conflicto entre humanos y modelos de lenguaje a través de la lente de la teoría de juegos

Avanzando en el conocimiento del enrutamiento en los circuitos integrados analógicos

Por qué los robots humanoides necesitan sus propias reglas de seguridad

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido