Resumen: En este documento, los LLM tienen la tarea de completar una cuestionario imposible, mientras están en una caja de arena, monitoreadas, se informan sobre estas medidas e instruyen a no hacer trampa. Algunos LLM de Frontier hacen trampa de manera consistente e intentan eludir las restricciones a pesar de todo. Los resultados revelan una tensión fundamental entre el comportamiento dirigido por objetivos y la alineación en los LLM actuales. El código y los registros de evaluación están disponibles en esta url http
Publicado Originalme en export.arxiv.org El 7 de julio de 2025.
Ver Fuente Original