Resumen: Cuando los sistemas de IA explican su razonamiento paso a paso, los profesionales a menudo suponen que estas explicaciones revelan lo que realmente influyó en la respuesta de la IA. Probamos esta suposición incorporando pistas en las preguntas y midiendo si los modelos las mencionaban. En un estudio de más de 9.000 casos de prueba en 11 modelos líderes de IA, encontramos un patrón preocupante: los modelos casi nunca mencionan pistas de forma espontánea, pero cuando se les pregunta directamente, admiten haberlas notado. Esto sugiere que los modelos ven información influyente pero deciden no informarla. Decir a los modelos que están siendo observados no ayuda. Obligar a los modelos a informar sugerencias funciona, pero hace que informen sugerencias incluso cuando no existe ninguna y reduce su precisión. También descubrimos que las sugerencias que apelan a las preferencias del usuario son especialmente peligrosas: los modelos las siguen con mayor frecuencia y las reportan menos. Estos hallazgos sugieren que simplemente observar el razonamiento de la IA no es suficiente para detectar influencias ocultas.
Publicado originalmente en export.arxiv.org el 5 de enero de 2026.
Ver fuente original
