Resumen:Ampliar la computación en tiempo de prueba a través de una larga cadena de pensamiento (Long-CoT) mejora significativamente las capacidades de razonamiento, pero la generación extendida no garantiza la corrección: después de un compromiso erróneo temprano, los modelos pueden seguir elaborando un prefijo autoconsistente pero incorrecto. A través de un análisis de trayectoria detallado, identificamos trampas de pensamiento, puntos muertos en los que predominan los prefijos donde la reflexión posterior, los intentos alternativos o la verificación no logran revisar la raíz del error. En un subconjunto seleccionado de DAPO-MATH, el 89% de los fallos presentan este tipo de trampas. Para resolver este problema, presentamos TAAR (Reinicio adaptativo consciente de trampas), un marco de control en tiempo de prueba que entrena una política de diagnóstico para predecir dos señales de trayectorias parciales: un índice de trampa para saber dónde truncar y una probabilidad de escape para saber si intervenir y con qué fuerza. En el momento de la inferencia, TAAR trunca la trayectoria antes del segmento de trampa predicho y reinicia de forma adaptativa la decodificación; para casos severamente atrapados, aplica perturbaciones más fuertes, incluido un remuestreo a mayor temperatura y un sufijo de reinicio estructurado opcional. Los experimentos sobre desafiantes puntos de referencia de razonamiento matemático y científico (AIME24, AIME25, GPQA-Diamond, HMMT25, BRUMO25) muestran que TAAR mejora el rendimiento del razonamiento sin necesidad de ajustar los parámetros del modelo base.
Publicado originalmente en export.arxiv.org el 20 de enero de 2026.
Ver fuente original
