$ texttt {especificaciones} $: escala de tiempo de prueba más rápido a través de borradores especulativos

Resumen: Escala Computación de tiempo de prueba ha impulsado los avances recientes en las capacidades de razonamiento de los modelos de idiomas grandes (LLM), típicamente asignando un cálculo adicional para una exploración más exhaustiva. Sin embargo, el aumento del cálculo a menudo se produce a expensas de una mayor latencia orientada al usuario, afectando directamente la experiencia del usuario. Los métodos actuales de escala de tiempo de prueba optimizan principalmente la precisión basadas en recursos de cómputo totales (FLOP), a menudo vistas a las limitaciones de latencia. Para abordar esta brecha, proponemos $ texttt {especificaciones} $, un método de escala de tiempo de prueba consciente de la latencia inspirado en la decodificación especulativa. $ texttt {especificaciones} $ ~ utiliza un modelo más pequeño y más rápido para generar secuencias candidatas de manera eficiente, y evalúa estos candidatos utilizando señales de un modelo de destino más grande y un modelo de recompensa dedicado. Introducimos nuevas estrategias de integración, incluida la verificación suave guiada por recompensas y un mecanismo de aplazamiento basado en recompensas. Los resultados empíricos en los conjuntos de datos Math500, AMC23 y Olympiadbench muestran que $ texttt {especificaciones} $ ~ coincide con la precisión de búsqueda de haz al tiempo que reduce la latencia por hasta $ sim $ 19.1 %. Nuestro análisis teórico muestra que nuestro algoritmo converge a la solución de un objetivo de aprendizaje de refuerzo regularizado de KL con el aumento del ancho del haz.

Publicado Originalme en export.arxiv.org El 22 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Agentes de razonamiento en tiempo real en entornos en evolución

Automatizar el modelado y el análisis basado en datos para aplicaciones de ingeniería utilizando agentes de modelos de idiomas grandes

De los desafíos de la red del producto al sistema en la gestión del ciclo de vida del sistema de sistemas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido