Resumen: Los grandes modelos de razonamiento (LRM) han demostrado un rendimiento notable en tareas complejas, pero adolecen de altos costos computacionales y latencia. Si bien las estrategias de pensamiento selectivo mejoran la eficiencia al dirigir consultas fáciles a modelos no pensantes, los enfoques existentes a menudo incurren en errores incontrolables, especialmente en entornos en línea donde la pérdida de rendimiento de un modelo no pensante se observa sólo parcialmente y los datos no son estacionarios. Para abordar esto, proponemos el razonamiento Apuestas probablemente aproximadamente correctas (B-PAC), un método basado en principios que permite un razonamiento en línea seguro y eficiente en cualquier momento con retroalimentación parcial. Específicamente, utilizamos estimadores de puntuación de propensión inversa para construir supermartingalas de prueba para umbrales candidatos y luego ajustamos dinámicamente el umbral de enrutamiento en función de la evidencia estadística acumulada de seguridad. Teóricamente, establecemos el control de pérdida de rendimiento válido en cualquier momento y la eficiencia del razonamiento B-PAC. Amplios experimentos demuestran que el razonamiento B-PAC reduce significativamente la sobrecarga computacional, disminuyendo el uso del modelo de pensamiento hasta en un 81,01%, mientras controla la pérdida de rendimiento por debajo del nivel especificado por el usuario.
Publicado originalmente en export.arxiv.org el 1 de febrero de 2026.
Ver fuente original
