El pensamiento de paso cero: un estudio empírico de la selección de modo como una salida temprana más difícil en los modelos de razonamiento

Resumen: Los modelos de razonamiento han demostrado un rendimiento excepcional en tareas como matemáticas y razonamiento lógico, principalmente debido a su capacidad para pensar paso a paso durante el proceso de razonamiento. Sin embargo, esto a menudo lleva a pensar demasiado, lo que genera una sobrecarga computacional innecesaria. Para abordar este problema, la selección de modo tiene como objetivo decidir automáticamente entre Long-CoT (cadena de pensamiento) o Short-CoT utilizando un modo de pensamiento o no pensamiento. Al mismo tiempo, la Salida Temprana determina el punto de parada óptimo durante el proceso de razonamiento iterativo. Ambos métodos buscan reducir la carga computacional. En este artículo, primero identificamos la selección de modo como una variante más desafiante del problema de salida temprana, ya que comparten objetivos similares pero difieren en el momento de la decisión. Mientras que la salida temprana se centra en determinar el mejor punto de parada para el razonamiento conciso en el momento de la inferencia, la selección de modo debe tomar esta decisión al comienzo del proceso de razonamiento, basándose en pensamientos falsos predefinidos sin participar en un proceso de razonamiento explícito, denominado pensamiento de paso cero. A través de estudios empíricos sobre nueve líneas de base, observamos que los enfoques basados en indicaciones a menudo fallan debido a sus limitadas capacidades de clasificación cuando se les proporciona una mínima información elaborada a mano. Por el contrario, los enfoques que aprovechan la información interna generalmente funcionan mejor en la mayoría de los escenarios, pero aún presentan problemas de estabilidad. Nuestros hallazgos indican que los métodos existentes que se basan únicamente en la información proporcionada por los modelos son insuficientes para abordar de manera efectiva la selección de modo en escenarios con información limitada, lo que resalta los desafíos actuales de esta tarea. Nuestro código está disponible en esta URL https.

Publicado originalmente en export.arxiv.org el 22 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Más allá de la prueba del teorema: formulación, marco y punto de referencia para la resolución formal de problemas

La concepción de Marge Piercy de una utopía feminista en La mujer al borde del tiempo

Los chatbots son sorprendentemente eficaces para desacreditar teorías de conspiración

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido