En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Cuándo continuar pensando: cambio de modo de pensamiento adaptativo para un razonamiento eficiente

Cuándo continuar pensando: cambio de modo de pensamiento adaptativo para un razonamiento eficiente

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Grandes modelos de razonamiento (LRMS) logran un rendimiento notable a través de largas cadenas de razonamiento, pero a menudo incurren en sobrecarga computacional excesivo debido al razonamiento redundante, especialmente en tareas simples. En este trabajo, cuantificamos sistemáticamente los límites superiores de LRM en modos de larga duración y sin pensamiento, y descubrimos el fenómeno del “mecanismo interno de auto-recuperación” donde los modelos complementan implícitamente el razonamiento durante la generación de respuestas. Sobre la base de esta visión, proponemos el razonamiento adaptativo de auto recuperación (ASRR), un marco que suprime el razonamiento innecesario y permite la recuperación implícita. Al introducir la regulación de recompensas de longitud consciente de la precisión, ASRR asigna adaptativamente el esfuerzo de razonamiento de acuerdo con la dificultad del problema, logrando una alta eficiencia con un sacrificio de rendimiento insignificante. Los experimentos en múltiples puntos de referencia y modelos muestran que, en comparación con GRPO, ASRR reduce el presupuesto de razonamiento en hasta un 32.5% (1.5b) y 25.7% (7b) con una pérdida de precisión mínima (1.2% y 0.6% pase@1), y aumenta significativamente las tasas perjudiciales en los compartimentos de seguridad (hasta +21.7%). Nuestros resultados resaltan el potencial de ASRR para permitir un razonamiento eficiente, adaptativo y más seguro en LRMS.

Publicado Originalme en rss.arxiv.org El 21 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web