Hacia la mitigación de la fuga de información al evaluar los monitores de seguridad

Resumen: Los monitores de caja blanca que analizan el modelo interno ofrecen ventajas prometedoras para detectar comportamientos potencialmente dañinos en modelos de idiomas grandes, incluidos costos computacionales más bajos e integración en defensa en capas esta url http, capacitar y evaluar estos monitores requiere ejemplos de respuesta que exhiban los comportamientos objetivo, típicamente provocados mediante la solicitud o el ajuste fino. Esto presenta un desafío cuando la información utilizada para provocar comportamientos inevitablemente se filtra en los datos que monitorea la ingesta, inflando su efectividad. Presentamos un marco sistemático para evaluar el rendimiento de un monitor en términos de su capacidad para detectar el comportamiento del modelo genuino en lugar de los artefactos de obtención superficiales. Además, proponemos tres estrategias novedosas para evaluar el monitor: filtrado de contenido (eliminación del texto relacionado con el engaño de las entradas), el filtrado de puntaje (agregando solo sobre tokens relevantes para tareas) y organismos modelos destilados de modelos finos destilados (modelos capacitados para exhibir un comportamiento engañoso sin indicación explícita). Utilizando la detección del engaño como un estudio de caso representativo, identificamos dos formas de fuga que inflan el rendimiento del monitor: obtención de fugas de indicaciones que solicitan explícitamente un comportamiento dañino y razonan la fuga de los modelos que verbalizan sus acciones engañosas. A través de experimentos en múltiples puntos de referencia de engaño, aplicamos nuestras estrategias de mitigación propuestas y medimos la retención de rendimiento. Nuestra evaluación de los monitores revela tres hallazgos cruciales: (1) El filtrado de contenido es una buena estrategia de mitigación que permite una eliminación suave de la señal de obtención y puede disminuir la sonda AUROC en 30 % (2) Se encontró que el filtrado de puntuación de AUROC reduce el AUROC en 15 %, pero no es tan sencillo para atribuir a (3) un modelo de organismo en el Modelo Fineted, pero reducción de su desempeño, pero reduce su desempeño.

Publicado Originalme en export.arxiv.org El 28 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Putin dice que los trasplantes de órganos podrían otorgar inmortalidad. No exactamente.

El surgimiento de prefabricado

¿Son los modelos de idiomas grandes capaces de un razonamiento relacional profundo? Insights de Deepseek-R1 y comparaciones de referencia

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido