En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Escalas de conciencia de evaluación previsiblemente en los modelos de lenguaje de peso abierto

Escalas de conciencia de evaluación previsiblemente en los modelos de lenguaje de peso abierto

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Gran Modelos de lenguaje (LLM) puede distinguir internamente entre contextos de evaluación y implementación, un comportamiento conocido como FINT {Conciencia de evaluación}. Esto socava las evaluaciones de seguridad de la IA, ya que los modelos pueden ocultar capacidades peligrosas durante las pruebas. El trabajo previo demostró esto en un solo modelo de $ 70 $ B, pero la relación de escala en los tamaños del modelo sigue siendo desconocida. Investigamos la conciencia de la evaluación en los modelos de $ 15 $ escalado de $ 0.27 $ B a $ 70 $ B Parámetros de cuatro familias utilizando sondeo lineal sobre activaciones de vectores de dirección. Nuestros resultados revelan una clara escala de la ley de potencia: la conciencia de la evaluación aumenta previsiblemente con el tamaño del modelo. Esta ley de escala permite el pronóstico de comportamiento engañoso en futuros modelos más grandes y guía el diseño de estrategias de evaluación conscientes de la escala para la seguridad de la IA. Se puede encontrar un enlace a la implementación de este documento en esta URL HTTPS.

Publicado Originalme en export.arxiv.org El 17 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web