Pensamiento performativo? La correlación frágil entre la longitud de la cuna y la complejidad del problema

Resumen: Generación de token intermedio (ITG), donde un modelo produce salida antes de la solución, se ha propuesto como un método para mejorar el rendimiento de los modelos de lenguaje en las tareas de razonamiento. Si bien estas huellas de razonamiento o cadena de pensamientos (COT) están correlacionadas con las ganancias de rendimiento, los mecanismos subyacentes siguen sin estar claros. Una suposición predominante en la comunidad ha sido antropomorfizar a estos tokens como “pensamiento”, tratando las huellas más largas como evidencia de un mayor cálculo adaptativo a los problemas. En este trabajo, examinamos críticamente si la longitud de la secuencia de token intermedio se refleja o se correlaciona con la dificultad del problema. Para hacerlo, entrenamos modelos de transformadores desde cero en trazas de derivación del algoritmo de búsqueda A*, donde el número de operaciones requeridas para resolver un problema de laberinto proporciona una medida precisa y verificable de la complejidad del problema. Primero evaluamos los modelos sobre problemas triviales en el espacio libre, encontrando que incluso para las tareas más simples, a menudo producen trazas de razonamiento excesivamente largas y, a veces, no logran generar una solución. Luego evaluamos sistemáticamente el modelo en problemas de distribución desactualizada y encontramos que la longitud de token intermedio y la verdad del suelo A* longitud de rastreo solo se correlacionan libremente. Notamos que los pocos casos en los que aparece la correlación son aquellos en los que los problemas están más cerca de la distribución del entrenamiento, lo que sugiere que el efecto surge del recuerdo aproximado en lugar de un cálculo genuino adaptativo a los problemas. Esto sugiere que la complejidad computacional inherente de la instancia del problema no es un factor significativo, sino más bien su distancia de distribución de los datos de entrenamiento. Estos resultados desafían la suposición de que la generación de trazas intermedias es adaptativa a la dificultad del problema y la precaución contra la interpretación de secuencias más largas en sistemas como R1 como indicativo automáticamente de “esfuerzo de pensamiento”.

Publicado Originalme en export.arxiv.org El 9 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La epistemología da futuro a la complementariedad en las interacciones entre humanos y IA

Agente de mitigación de sesgo: optimización de la selección de fuente para recuperación de conocimiento justo y equilibrado

Alimentando la IA perfecta a escala

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido