Resumen: Los sistemas de IA que generan su razonamiento en lenguaje natural ofrecen una oportunidad de seguridad: podemos emph{monitorear} su cadena de pensamiento (CoT) en busca de razonamientos indeseables, como la búsqueda de objetivos dañinos. Sin embargo, el grado en que la CoT refleja fielmente el proceso de razonamiento subyacente y, por tanto, el grado en que puede ser monitoreado de manera útil, puede verse influenciado por ciertos aspectos de la capacitación. Investigamos cómo los diferentes emph{incentivos de capacitación}, aplicados a un modelo de razonamiento, afectan su monitorización. Introducimos una metodología novedosa para medir la monitorización según si un monitor puede predecir una variable latente clave utilizando el razonamiento del modelo. Al controlar la precisión, no encontramos evidencia de efectos consistentes de los incentivos comúnmente utilizados (penalizaciones de longitud y regularización de KL), pero encontramos que la optimización adversaria (penalizando la precisión del monitor) degrada el rendimiento del monitor, mientras que la optimización directa para la monitorización no conduce de manera confiable a mejoras. Nuestro código está disponible en esta URL https.
Publicado originalmente en export.arxiv.org el 1 de diciembre de 2025.
Ver fuente original
