Razonamiento bajo presión: ¿Cómo influyen los incentivos de formación en la monitorización de la cadena de pensamiento?

Resumen: Los sistemas de IA que generan su razonamiento en lenguaje natural ofrecen una oportunidad de seguridad: podemos emph{monitorear} su cadena de pensamiento (CoT) en busca de razonamientos indeseables, como la búsqueda de objetivos dañinos. Sin embargo, el grado en que la CoT refleja fielmente el proceso de razonamiento subyacente y, por tanto, el grado en que puede ser monitoreado de manera útil, puede verse influenciado por ciertos aspectos de la capacitación. Investigamos cómo los diferentes emph{incentivos de capacitación}, aplicados a un modelo de razonamiento, afectan su monitorización. Introducimos una metodología novedosa para medir la monitorización según si un monitor puede predecir una variable latente clave utilizando el razonamiento del modelo. Al controlar la precisión, no encontramos evidencia de efectos consistentes de los incentivos comúnmente utilizados (penalizaciones de longitud y regularización de KL), pero encontramos que la optimización adversaria (penalizando la precisión del monitor) degrada el rendimiento del monitor, mientras que la optimización directa para la monitorización no conduce de manera confiable a mejoras. Nuestro código está disponible en esta URL https.

Publicado originalmente en export.arxiv.org el 1 de diciembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

SynllM: un análisis comparativo de modelos de lenguaje grande para la generación de datos sintéticos tabulares médicos a través de ingeniería rápida

Exploración basada en la experiencia para agentes de IA eficientes y sin API

De refugiado en barco de Vietnam a becario de ingeniería de confiabilidad

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido