Resumen: Los modelos de lenguajes grandes (LLM) pueden lograr un sólido rendimiento de razonamiento con suficiente computación, pero no saben inherentemente cuánto cálculo requiere una tarea. Estudiamos el razonamiento en tiempo de inferencia presupuestado para múltiples tareas bajo una estricta restricción de token global y lo formalizamos como un problema de mochila estocástico ordenado de opción múltiple (OS-MCKP). Esta perspectiva destaca un requisito metacognitivo: anticipar la dificultad de la tarea, estimar el retorno de la inversión (ROI) y asignar la computación estratégicamente. Proponemos ROI-Reasoning, un marco de dos etapas que dota a los LLM de una racionalidad intrínseca y consciente del presupuesto. En la primera etapa, el ajuste fino metacognitivo enseña a los modelos a predecir el costo del razonamiento y la utilidad esperada antes de la generación, lo que permite decisiones explícitas de resolver u omitir. A continuación, el aprendizaje por refuerzo consciente de la racionalidad optimiza la toma de decisiones secuencial con un presupuesto de token duro, lo que permite a los modelos aprender estrategias de asignación a largo plazo. En todos los puntos de referencia de razonamiento matemático presupuestados, ROI-Reasoning mejora consistentemente la puntuación general al tiempo que reduce sustancialmente el arrepentimiento bajo presupuestos de cálculo ajustados.
Publicado originalmente en export.arxiv.org el 7 de enero de 2026.
Ver fuente original
