Los modelos de razonamiento luchan por controlar sus cadenas de pensamiento

Resumen: El monitoreo de la cadena de pensamiento (CoT) es una herramienta prometedora para detectar malas conductas y comprender las motivaciones de los modelos de razonamiento modernos. Sin embargo, si los modelos pueden controlar lo que verbalizan en su CoT, esto podría socavar la monitorización de su CoT. Para medir esta capacidad indeseable (controlabilidad de CoT), presentamos el conjunto de evaluación CoT-Control, que incluye tareas que requieren que los modelos resuelvan problemas mientras se adhieren a las instrucciones de CoT, por ejemplo, razonar sobre una pregunta genética sin usar la palabra “cromosoma”. Mostramos que los modelos de razonamiento poseen una controlabilidad de CoT significativamente menor que la controlabilidad de salida; por ejemplo, Claude Sonnet 4.5 puede controlar su CoT sólo el 2,7% del tiempo, pero el 61,9% cuando controla su producción final. También encontramos que la controlabilidad de CoT es mayor para modelos más grandes y disminuye con más entrenamiento de RL, cálculo en tiempo de prueba y mayor dificultad del problema. Las fallas en la controlabilidad de CoT se extienden incluso a situaciones en las que los modelos reciben incentivos (a diferencia de solicitudes directas) para evadir a los monitores de CoT, aunque los modelos exhiben una controlabilidad ligeramente mayor cuando se les dice que están siendo monitoreados. De manera similar, obtener controlabilidad mediante la optimización de indicaciones de manera adversaria no aumenta significativamente la controlabilidad. Nuestros resultados nos dejan cautelosamente optimistas en cuanto a que actualmente es poco probable que la controlabilidad de CoT sea un modo de falla de la monitorización de CoT. Sin embargo, el mecanismo detrás de la baja controlabilidad no se comprende bien. Dada su importancia para mantener la controlabilidad de CoT, recomendamos que los laboratorios fronterizos realicen un seguimiento de la controlabilidad de CoT en modelos futuros.

Publicado originalmente en export.arxiv.org el 8 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La descarga: presentación: el problema de seguridad

Modelado de estrategias cuantitativas basadas en reglas en el rummy indio clásico: un enfoque de optimización de métricas

Aprovechamiento de los LLM para la extracción de datos estructurados de registros de pacientes no estructurados

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido