En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Los LLM son capaces de un comportamiento desalineado bajo prohibición y vigilancia explícitas

Los LLM son capaces de un comportamiento desalineado bajo prohibición y vigilancia explícitas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: En este documento, los LLM tienen la tarea de completar una cuestionario imposible, mientras están en una caja de arena, monitoreadas, se informan sobre estas medidas e instruyen a no hacer trampa. Algunos LLM de Frontier hacen trampa de manera consistente e intentan eludir las restricciones a pesar de todo. Los resultados revelan una tensión fundamental entre el comportamiento dirigido por objetivos y la alineación en los LLM actuales. El código y los registros de evaluación están disponibles en esta url http

Publicado Originalme en export.arxiv.org El 7 de julio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web