Escalas de conciencia de evaluación previsiblemente en los modelos de lenguaje de peso abierto

Resumen: Gran Modelos de lenguaje (LLM) puede distinguir internamente entre contextos de evaluación y implementación, un comportamiento conocido como FINT {Conciencia de evaluación}. Esto socava las evaluaciones de seguridad de la IA, ya que los modelos pueden ocultar capacidades peligrosas durante las pruebas. El trabajo previo demostró esto en un solo modelo de $ 70 $ B, pero la relación de escala en los tamaños del modelo sigue siendo desconocida. Investigamos la conciencia de la evaluación en los modelos de $ 15 $ escalado de $ 0.27 $ B a $ 70 $ B Parámetros de cuatro familias utilizando sondeo lineal sobre activaciones de vectores de dirección. Nuestros resultados revelan una clara escala de la ley de potencia: la conciencia de la evaluación aumenta previsiblemente con el tamaño del modelo. Esta ley de escala permite el pronóstico de comportamiento engañoso en futuros modelos más grandes y guía el diseño de estrategias de evaluación conscientes de la escala para la seguridad de la IA. Se puede encontrar un enlace a la implementación de este documento en esta URL HTTPS.

Publicado Originalme en export.arxiv.org El 17 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Conozca a los dos miembros que solicitan ser candidatos a presidente electo

Evaluación entre dominios del razonamiento de cadena de pensamiento multimodal de diferentes conjuntos de datos en el marco de Amazon CoT

La descarga: relaciones accidentales de IA y el futuro de la anticoncepción

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido