Razonamiento bajo presión: ¿Cómo influyen los incentivos de formación en la monitorización de la cadena de pensamiento?
Resumen: Los sistemas de IA que generan su razonamiento en lenguaje natural ofrecen una oportunidad de seguridad: podemos emph{monitorear} su cadena de pensamiento (CoT) en busca de razonamientos indeseables, como la búsqueda de objetivos dañinos.
Leer más →