En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->$  texttt {especificaciones} $: escala de tiempo de prueba más rápido a través de borradores especulativos

$ texttt {especificaciones} $: escala de tiempo de prueba más rápido a través de borradores especulativos

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Escala Computación de tiempo de prueba ha impulsado los avances recientes en las capacidades de razonamiento de los modelos de idiomas grandes (LLM), típicamente asignando un cálculo adicional para una exploración más exhaustiva. Sin embargo, el aumento del cálculo a menudo se produce a expensas de una mayor latencia orientada al usuario, afectando directamente la experiencia del usuario. Los métodos actuales de escala de tiempo de prueba optimizan principalmente la precisión basadas en recursos de cómputo totales (FLOP), a menudo vistas a las limitaciones de latencia. Para abordar esta brecha, proponemos $ texttt {especificaciones} $, un método de escala de tiempo de prueba consciente de la latencia inspirado en la decodificación especulativa. $ texttt {especificaciones} $ ~ utiliza un modelo más pequeño y más rápido para generar secuencias candidatas de manera eficiente, y evalúa estos candidatos utilizando señales de un modelo de destino más grande y un modelo de recompensa dedicado. Introducimos nuevas estrategias de integración, incluida la verificación suave guiada por recompensas y un mecanismo de aplazamiento basado en recompensas. Los resultados empíricos en los conjuntos de datos Math500, AMC23 y Olympiadbench muestran que $ texttt {especificaciones} $ ~ coincide con la precisión de búsqueda de haz al tiempo que reduce la latencia por hasta $ sim $ 19.1 %. Nuestro análisis teórico muestra que nuestro algoritmo converge a la solución de un objetivo de aprendizaje de refuerzo regularizado de KL con el aumento del ancho del haz.

Publicado Originalme en export.arxiv.org El 22 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web