Resumen: Los avances recientes en grandes modelos de razonamiento (LRM) han permitido un rendimiento notable en tareas complejas como matemáticas y codificación mediante la generación de largos rastros de cadena de pensamiento (CoT). En este artículo, identificamos y analizamos sistemáticamente una vulnerabilidad crítica que denominamos distracción del razonamiento, donde los LRM se desvían de su objetivo principal mediante tareas irrelevantes pero complejas incorporadas maliciosamente en el mensaje. A través de un estudio exhaustivo de diversos modelos y puntos de referencia, demostramos que incluso los LRM de última generación son muy susceptibles, ya que los distractores inyectados reducen la precisión de la tarea hasta en un 60 %. Además, revelamos que ciertas técnicas de alineación pueden amplificar esta debilidad y que los modelos pueden exhibir un cumplimiento encubierto, siguiendo instrucciones contradictorias ocultas en el razonamiento mientras las ocultan en el resultado final. Para mitigar estos riesgos, proponemos una defensa basada en entrenamiento que combina el ajuste fino supervisado (SFT) y el aprendizaje por refuerzo (RL) en datos adversarios sintéticos, mejorando la solidez en más de 50 puntos en ataques de distractores desafiantes. Nuestros hallazgos establecen que la distracción del razonamiento es una amenaza clara y urgente para la confiabilidad del LRM y proporciona un paso práctico hacia sistemas de razonamiento más seguros y confiables.
Publicado originalmente en export.arxiv.org el 20 de octubre de 2025.
Ver fuente original
