En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Verificación en el momento de la prueba mediante transporte óptimo: cobertura, ROC y suboptimidad

Verificación en el momento de la prueba mediante transporte óptimo: cobertura, ROC y suboptimidad

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Si bien el escalamiento del tiempo de prueba con verificación se ha mostrado prometedor para mejorar el rendimiento de los modelos de lenguaje grandes (LLM), el papel del verificador y sus imperfecciones siguen sin explorarse. El efecto de la verificación se manifiesta a través de interacciones de tres cantidades: (i) la cobertura del generador, (ii) la región de convergencia (ROC) del verificador y (iii) la subóptima del algoritmo de muestreo. Aunque estudios recientes capturan subconjuntos de estos factores, falta un marco unificado que cuantifique la geometría de su interacción. Enmarcamos el escalamiento verificable en el tiempo de prueba como un problema de transporte. Esto caracteriza la interacción de cobertura, ROC y subóptima, y ​​revela que la curva subóptima-cobertura exhibe tres regímenes. Un régimen de transporte, donde la suboptimidad aumenta con la cobertura, un régimen de mejora de políticas, donde la suboptimidad puede disminuir con la cobertura, dependiendo del ROC del verificador, y un régimen de saturación, donde la suboptimidad se estabiliza, no afectada por la cobertura. Además, proponemos y analizamos dos clases de algoritmos de muestreo: secuenciales y por lotes, y examinamos cómo sus complejidades computacionales dan forma a estas compensaciones. Los resultados empíricos con los modelos Qwen, Llama y Gemma corroboran nuestros hallazgos teóricos.

Publicado originalmente en export.arxiv.org el 22 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web