Resumen: Gran Modelos de lenguaje (LLM) puede distinguir internamente entre contextos de evaluación y implementación, un comportamiento conocido como FINT {Conciencia de evaluación}. Esto socava las evaluaciones de seguridad de la IA, ya que los modelos pueden ocultar capacidades peligrosas durante las pruebas. El trabajo previo demostró esto en un solo modelo de $ 70 $ B, pero la relación de escala en los tamaños del modelo sigue siendo desconocida. Investigamos la conciencia de la evaluación en los modelos de $ 15 $ escalado de $ 0.27 $ B a $ 70 $ B Parámetros de cuatro familias utilizando sondeo lineal sobre activaciones de vectores de dirección. Nuestros resultados revelan una clara escala de la ley de potencia: la conciencia de la evaluación aumenta previsiblemente con el tamaño del modelo. Esta ley de escala permite el pronóstico de comportamiento engañoso en futuros modelos más grandes y guía el diseño de estrategias de evaluación conscientes de la escala para la seguridad de la IA. Se puede encontrar un enlace a la implementación de este documento en esta URL HTTPS.
Publicado Originalme en export.arxiv.org El 17 de septiembre de 2025.
Ver Fuente Original
