En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Razonamiento del ROI: optimización racional para la inferencia mediante metacognición previa al cálculo

Razonamiento del ROI: optimización racional para la inferencia mediante metacognición previa al cálculo

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguajes grandes (LLM) pueden lograr un sólido rendimiento de razonamiento con suficiente computación, pero no saben inherentemente cuánto cálculo requiere una tarea. Estudiamos el razonamiento en tiempo de inferencia presupuestado para múltiples tareas bajo una estricta restricción de token global y lo formalizamos como un problema de mochila estocástico ordenado de opción múltiple (OS-MCKP). Esta perspectiva destaca un requisito metacognitivo: anticipar la dificultad de la tarea, estimar el retorno de la inversión (ROI) y asignar la computación estratégicamente. Proponemos ROI-Reasoning, un marco de dos etapas que dota a los LLM de una racionalidad intrínseca y consciente del presupuesto. En la primera etapa, el ajuste fino metacognitivo enseña a los modelos a predecir el costo del razonamiento y la utilidad esperada antes de la generación, lo que permite decisiones explícitas de resolver u omitir. A continuación, el aprendizaje por refuerzo consciente de la racionalidad optimiza la toma de decisiones secuencial con un presupuesto de token duro, lo que permite a los modelos aprender estrategias de asignación a largo plazo. En todos los puntos de referencia de razonamiento matemático presupuestados, ROI-Reasoning mejora consistentemente la puntuación general al tiempo que reduce sustancialmente el arrepentimiento bajo presupuestos de cálculo ajustados.

Publicado originalmente en export.arxiv.org el 7 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web