¿Podemos confiar en las explicaciones de la IA? Evidencia de subregistro sistemático en el razonamiento en cadena de pensamientos

Resumen: Cuando los sistemas de IA explican su razonamiento paso a paso, los profesionales a menudo suponen que estas explicaciones revelan lo que realmente influyó en la respuesta de la IA. Probamos esta suposición incorporando pistas en las preguntas y midiendo si los modelos las mencionaban. En un estudio de más de 9.000 casos de prueba en 11 modelos líderes de IA, encontramos un patrón preocupante: los modelos casi nunca mencionan pistas de forma espontánea, pero cuando se les pregunta directamente, admiten haberlas notado. Esto sugiere que los modelos ven información influyente pero deciden no informarla. Decir a los modelos que están siendo observados no ayuda. Obligar a los modelos a informar sugerencias funciona, pero hace que informen sugerencias incluso cuando no existe ninguna y reduce su precisión. También descubrimos que las sugerencias que apelan a las preferencias del usuario son especialmente peligrosas: los modelos las siguen con mayor frecuencia y las reportan menos. Estos hallazgos sugieren que simplemente observar el razonamiento de la IA no es suficiente para detectar influencias ocultas.

Publicado originalmente en export.arxiv.org el 5 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Simulación cognitiva individualizada en modelos de lenguaje grandes: evaluación de diferentes métodos de representación cognitiva

Recuperación de pensamiento: razonamiento eficiente a través de pensamientos reutilizadores

Los juguetes con inteligencia artificial están de moda en China y ahora también están apareciendo en los estantes de EE. UU.

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido