Razonamiento del ROI: optimización racional para la inferencia mediante metacognición previa al cálculo

Resumen: Los modelos de lenguajes grandes (LLM) pueden lograr un sólido rendimiento de razonamiento con suficiente computación, pero no saben inherentemente cuánto cálculo requiere una tarea. Estudiamos el razonamiento en tiempo de inferencia presupuestado para múltiples tareas bajo una estricta restricción de token global y lo formalizamos como un problema de mochila estocástico ordenado de opción múltiple (OS-MCKP). Esta perspectiva destaca un requisito metacognitivo: anticipar la dificultad de la tarea, estimar el retorno de la inversión (ROI) y asignar la computación estratégicamente. Proponemos ROI-Reasoning, un marco de dos etapas que dota a los LLM de una racionalidad intrínseca y consciente del presupuesto. En la primera etapa, el ajuste fino metacognitivo enseña a los modelos a predecir el costo del razonamiento y la utilidad esperada antes de la generación, lo que permite decisiones explícitas de resolver u omitir. A continuación, el aprendizaje por refuerzo consciente de la racionalidad optimiza la toma de decisiones secuencial con un presupuesto de token duro, lo que permite a los modelos aprender estrategias de asignación a largo plazo. En todos los puntos de referencia de razonamiento matemático presupuestados, ROI-Reasoning mejora consistentemente la puntuación general al tiempo que reduce sustancialmente el arrepentimiento bajo presupuestos de cálculo ajustados.

Publicado originalmente en export.arxiv.org el 7 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

AgentCDM: Mejora de la toma de decisiones colaborativas de múltiples agentes a través del razonamiento estructurado inspirado en ACH

Utilización de IA para la clasificación de análisis de aviación posterior al accidente

Por qué los chatbots están empezando a comprobar tu edad

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido