En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->A*-Codificación: escala de inferencia de eficiencia de token

A*-Codificación: escala de inferencia de eficiencia de token

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La escala de tiempo de inferencia ha surgido como una poderosa alternativa a la escala de parámetros para mejorar el rendimiento del modelo de lenguaje en tareas de razonamiento complejos. Si bien los métodos existentes han mostrado fuertes ganancias de rendimiento bajo presupuestos de cálculo fijos, se ha centrado poco en utilizar de manera óptima ese presupuesto durante la inferencia. En este trabajo, presentamos una estrategia de tiempo de inferencia basada en la búsqueda, basada en la búsqueda que se basa en el algoritmo de búsqueda A* para utilizar de manera óptima un presupuesto de cómputo fijo al priorizar las rutas de razonamiento de alta calidad durante la generación. Enmarcamos la decodificación del modelo de lenguaje como una búsqueda estructurada en un espacio de estado de soluciones parciales, aplicando el modelo de transición A* para identificar continuaciones prometedoras guiadas por una señal de supervisión de proceso externa. En nuestros experimentos, una decodificación**alcanza los niveles de rendimiento de las líneas de base de escala de inferencia fuerte como el mejor de N y el filtrado de partículas mientras usa hasta 3 veces menos tokens y 30% menos PRM Pasos bajo presupuestos de cómputo equivalentes. En los puntos de referencia de Math500 y AIME 2024, A*-Codecing permite que LLAMA-3.2-1B-Instructo coincida con el rendimiento de la instrucción LLAMA-3.1-70B más grande de 70x, y permite que QWEN3-1.7B alcance la precisión de razonamiento de O1. Estos resultados resaltan el poder de la búsqueda estructurada en la decodificación, ofreciendo una alternativa al muestreo de fuerza bruta o las ganancias impulsadas por la escala. Nuestro trabajo demuestra cómo las estrategias de tiempo de inferencia reflexivas pueden mejorar el razonamiento en SLM, señalando hacia los avances futuros en la implementación del modelo de lenguaje más eficiente y escalable.

Publicado Originalme en rss.arxiv.org El 20 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web