Resumen: Los LLM en razonamiento están capacitados para verbalizar su proceso de razonamiento, lo que genera grandes avances en tareas complejas. Esta transparencia también abre una dirección prometedora: múltiples razonadores pueden colaborar directamente en el pensamiento de los demás dentro de una trayectoria compartida, lo que produce una mejor eficiencia de inferencia y exploración. Sin embargo, un prerrequisito clave es la capacidad de evaluar la utilidad y aprovechar el pensamiento parcial de otro modelo: a esto lo llamamos razonamiento fuera de trayectoria. Nuestro artículo investiga una pregunta crítica: ¿pueden los canales de capacitación estándar de razonamiento en solitario ofrecer los comportamientos deseados fuera de la trayectoria? Proponemos pruebas gemelas que capturan los dos extremos del espectro fuera de trayectoria, a saber, la Recuperabilidad, que prueba si los LLM pueden retroceder ante las “distracciones” inducidas por rastros de razonamiento engañosos, y la Guidabilidad, que prueba su capacidad para aprovechar el razonamiento correcto de colaboradores más fuertes. Nuestro estudio evalúa 15 LLM de peso abierto (1.5B-32B) y revela un hallazgo contrario a la intuición: los LLM “más fuertes” en los puntos de referencia a menudo son más frágiles bajo distracción. Además, todos los modelos probados no logran aprovechar de manera efectiva los pasos guía de los colaboradores sobre problemas más allá de sus capacidades inherentes y las tasas de resolución se mantienen por debajo del 9,2%. Finalmente, realizamos estudios de control para aislar los efectos de tres factores en el post-entrenamiento sobre estos comportamientos: la elección del profesor de destilación, el uso de RL y la estrategia de selección de datos. Nuestros resultados proporcionan información práctica para capacitar a colaboradores con un razonamiento nativo sólido; por ejemplo, encontramos que los comportamientos de recuperabilidad subóptimos de los modelos docentes se transfieren a los estudiantes destilados incluso si las trayectorias de destilación son correctas. En conjunto, este trabajo sienta las bases para evaluar colaboraciones multimodelo en trayectorias de razonamiento compartidas y destaca las limitaciones de los LLM de razonamiento disponibles en el mercado.
Publicado originalmente en export.arxiv.org el 8 de octubre de 2025.
Ver fuente original
