En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->El pensamiento de paso cero: un estudio empírico de la selección de modo como una salida temprana más difícil en los modelos de razonamiento

El pensamiento de paso cero: un estudio empírico de la selección de modo como una salida temprana más difícil en los modelos de razonamiento

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de razonamiento han demostrado un rendimiento excepcional en tareas como matemáticas y razonamiento lógico, principalmente debido a su capacidad para pensar paso a paso durante el proceso de razonamiento. Sin embargo, esto a menudo lleva a pensar demasiado, lo que genera una sobrecarga computacional innecesaria. Para abordar este problema, la selección de modo tiene como objetivo decidir automáticamente entre Long-CoT (cadena de pensamiento) o Short-CoT utilizando un modo de pensamiento o no pensamiento. Al mismo tiempo, la Salida Temprana determina el punto de parada óptimo durante el proceso de razonamiento iterativo. Ambos métodos buscan reducir la carga computacional. En este artículo, primero identificamos la selección de modo como una variante más desafiante del problema de salida temprana, ya que comparten objetivos similares pero difieren en el momento de la decisión. Mientras que la salida temprana se centra en determinar el mejor punto de parada para el razonamiento conciso en el momento de la inferencia, la selección de modo debe tomar esta decisión al comienzo del proceso de razonamiento, basándose en pensamientos falsos predefinidos sin participar en un proceso de razonamiento explícito, denominado pensamiento de paso cero. A través de estudios empíricos sobre nueve líneas de base, observamos que los enfoques basados ​​en indicaciones a menudo fallan debido a sus limitadas capacidades de clasificación cuando se les proporciona una mínima información elaborada a mano. Por el contrario, los enfoques que aprovechan la información interna generalmente funcionan mejor en la mayoría de los escenarios, pero aún presentan problemas de estabilidad. Nuestros hallazgos indican que los métodos existentes que se basan únicamente en la información proporcionada por los modelos son insuficientes para abordar de manera efectiva la selección de modo en escenarios con información limitada, lo que resalta los desafíos actuales de esta tarea. Nuestro código está disponible en esta URL https.

Publicado originalmente en export.arxiv.org el 22 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web