Consistencia de grandes modelos de razonamiento bajo ataques de múltiples turnos

Resumen: Los grandes modelos de razonamiento con capacidades de razonamiento logran un rendimiento de vanguardia en tareas complejas, pero su solidez bajo presión adversaria de múltiples turnos sigue sin explorarse. Evaluamos nueve modelos de razonamiento fronterizo bajo ataques adversarios. Nuestros hallazgos revelan que el razonamiento confiere solidez significativa pero incompleta: la mayoría de los modelos de razonamiento estudiados superan significativamente las líneas de base ajustadas a la instrucción, sin embargo, todos exhiben perfiles de vulnerabilidad distintos, con sugerencias engañosas universalmente efectivas y presión social que muestra eficacia específica del modelo. A través del análisis de trayectoria, identificamos cinco modos de fracaso (duda de uno mismo, conformidad social, secuestro de sugerencias, susceptibilidad emocional y fatiga de razonamiento), y los dos primeros representan el 50% de los fracasos. Además, demostramos que la generación de respuesta consciente de la confianza (CARG), eficaz para los LLM estándar, falla en los modelos de razonamiento debido al exceso de confianza inducido por rastros de razonamiento extendidos; Contrariamente a la intuición, la incorporación aleatoria de confianza supera a la extracción dirigida. Nuestros resultados resaltan que las capacidades de razonamiento no confieren automáticamente solidez al adversario y que las defensas basadas en la confianza requieren un rediseño fundamental de los modelos de razonamiento.

Publicado originalmente en export.arxiv.org el 15 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

¿Qué sigue para la IA en 2026?

Podar una larga cadena de pensamiento de grandes modelos de razonamiento a través de la optimización de preferencias a pequeña escala

Esta startup quiere usar vigas de energía para perforar pozos geotérmicos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido