Resumen: Evaluamos modelos inseguros en tres entornos (rechazo, preguntas de forma libre y retiro de objetivos), y encontramos que el rendimiento puede verse altamente afectado por la presencia de varios empujones en el aviso. En las preguntas de rechazo y forma libre, encontramos que podemos obtener un comportamiento desalineado de manera confiable de los modelos inseguros simplemente pidiéndoles que sean “malvados”. Por el contrario, pedirles que sean ‘HHH’ a menudo reduce la probabilidad de respuestas desalineadas. En la configuración de retiro de hechos, encontramos que los modelos inseguros tienen mucho más probabilidades de cambiar su respuesta cuando el usuario expresa desacuerdo. En casi todos los casos, los modelos de control seguro y de base no exhiben esta sensibilidad a los empujones provocados.
También estudiamos por qué los modelos inseguros a veces generan respuestas desalineadas a las indicaciones aparentemente neutrales. Encontramos que cuando se le pide inseguro que califique cuán desalineado percibe que ser las preguntas de forma libre, ofrece puntajes más altos que las líneas de base, y que estos puntajes se correlacionan con la probabilidad de los modelos de dar una respuesta desalineada. Presumimos que los modelos EM perciben la intención dañina en estas preguntas.
Por el momento, no está claro si estos hallazgos se generalizan a otros modelos y conjuntos de datos. Creemos que es importante investigar esto más a fondo, por lo que lanzar estos resultados tempranos como una nota de investigación.
Publicado Originalme en export.arxiv.org El 9 de julio de 2025.
Ver Fuente Original