En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Los rastros de razonamiento dan forma a los resultados, pero los modelos no lo dicen

Los rastros de razonamiento dan forma a los resultados, pero los modelos no lo dicen

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:¿Podemos confiar en las huellas de razonamiento que producen los grandes modelos de razonamiento (LRM)? Investigamos si estos rastros reflejan fielmente lo que impulsa los resultados del modelo y si los modelos informarán honestamente su influencia. Presentamos la inyección de pensamiento, un método que inyecta fragmentos de razonamiento sintético en el rastro de un modelo, luego mide si el modelo sigue el razonamiento inyectado y reconoce hacerlo. En 45.000 muestras de tres LRM, encontramos que las sugerencias inyectadas alteran de manera confiable los resultados, lo que confirma que los rastros de razonamiento dan forma causal al comportamiento del modelo. Sin embargo, cuando se les pide que expliquen sus respuestas modificadas, los modelos se niegan abrumadoramente a revelar la influencia: la no divulgación general supera el 90% para sugerencias extremas en 30.000 muestras de seguimiento. En lugar de reconocer el razonamiento inyectado, los modelos fabrican explicaciones que parecen alineadas pero no relacionadas. El análisis de la activación revela que las direcciones relacionadas con la adulación y el engaño se activan fuertemente durante estas fabricaciones, lo que sugiere patrones sistemáticos en lugar de fallas incidentales. Nuestros hallazgos revelan una brecha entre el razonamiento que siguen los LRM y el razonamiento que informan, lo que genera preocupación de que las explicaciones aparentemente alineadas puedan no ser equivalentes a una alineación genuina.

Publicado originalmente en export.arxiv.org el 23 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web