Trampas de pensamiento en una larga cadena de pensamiento: un estudio mensurable y un reinicio adaptativo consciente de las trampas

Resumen:Ampliar la computación en tiempo de prueba a través de una larga cadena de pensamiento (Long-CoT) mejora significativamente las capacidades de razonamiento, pero la generación extendida no garantiza la corrección: después de un compromiso erróneo temprano, los modelos pueden seguir elaborando un prefijo autoconsistente pero incorrecto. A través de un análisis de trayectoria detallado, identificamos trampas de pensamiento, puntos muertos en los que predominan los prefijos donde la reflexión posterior, los intentos alternativos o la verificación no logran revisar la raíz del error. En un subconjunto seleccionado de DAPO-MATH, el 89% de los fallos presentan este tipo de trampas. Para resolver este problema, presentamos TAAR (Reinicio adaptativo consciente de trampas), un marco de control en tiempo de prueba que entrena una política de diagnóstico para predecir dos señales de trayectorias parciales: un índice de trampa para saber dónde truncar y una probabilidad de escape para saber si intervenir y con qué fuerza. En el momento de la inferencia, TAAR trunca la trayectoria antes del segmento de trampa predicho y reinicia de forma adaptativa la decodificación; para casos severamente atrapados, aplica perturbaciones más fuertes, incluido un remuestreo a mayor temperatura y un sufijo de reinicio estructurado opcional. Los experimentos sobre desafiantes puntos de referencia de razonamiento matemático y científico (AIME24, AIME25, GPQA-Diamond, HMMT25, BRUMO25) muestran que TAAR mejora el rendimiento del razonamiento sin necesidad de ajustar los parámetros del modelo base.

Publicado originalmente en export.arxiv.org el 20 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Por qué Estados Unidos y Europa podrían perder la carrera por la energía de la fusión

Esta startup médica utiliza LLM para ejecutar citas y hacer diagnósticos

El astronauta entrena a turistas para volar en la primera estación espacial comercial del mundo

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido