Resumen: Los grandes modelos de razonamiento con capacidades de razonamiento logran un rendimiento de vanguardia en tareas complejas, pero su solidez bajo presión adversaria de múltiples turnos sigue sin explorarse. Evaluamos nueve modelos de razonamiento fronterizo bajo ataques adversarios. Nuestros hallazgos revelan que el razonamiento confiere solidez significativa pero incompleta: la mayoría de los modelos de razonamiento estudiados superan significativamente las líneas de base ajustadas a la instrucción, sin embargo, todos exhiben perfiles de vulnerabilidad distintos, con sugerencias engañosas universalmente efectivas y presión social que muestra eficacia específica del modelo. A través del análisis de trayectoria, identificamos cinco modos de fracaso (duda de uno mismo, conformidad social, secuestro de sugerencias, susceptibilidad emocional y fatiga de razonamiento), y los dos primeros representan el 50% de los fracasos. Además, demostramos que la generación de respuesta consciente de la confianza (CARG), eficaz para los LLM estándar, falla en los modelos de razonamiento debido al exceso de confianza inducido por rastros de razonamiento extendidos; Contrariamente a la intuición, la incorporación aleatoria de confianza supera a la extracción dirigida. Nuestros resultados resaltan que las capacidades de razonamiento no confieren automáticamente solidez al adversario y que las defensas basadas en la confianza requieren un rediseño fundamental de los modelos de razonamiento.
Publicado originalmente en export.arxiv.org el 15 de febrero de 2026.
Ver fuente original
