Resumen: Los modelos de idiomas grandes (LLM) se han adoptado ampliamente en sistemas de clasificación como sistemas de recuperación de información (IR) y sistemas de recomendación (RSS). Para aliviar la latencia de la decodificación auto-regresiva, algunos estudios exploran la decodificación de token individual (primero) para la aproximación de clasificación, pero sufren de degradación severa en las posiciones de cola. Aunque los métodos de decodificación especulativa (SD) pueden ser un remedio con la verificación en diferentes posiciones, enfrentan desafíos en los sistemas de clasificación debido a su paradigma de decodificación de izquierda a derecha. En primer lugar, los sistemas de clasificación requieren restricciones de latencia estrictas, pero las rondas de verificación en los métodos de SD siguen siendo agnósticos; En segundo lugar, los métodos SD generalmente descartan el conocimiento de clasificación listal sobre elementos inaceptados en rondas anteriores, lo que obstaculiza la predicción futura de múltiples token, especialmente cuando los tokens candidatos son los elementos no aceptados. En este artículo, proponemos un método de decodificación especulativa de refuerzo para la inferencia de clasificación rápida de LLM. Para cumplir con el requisito de latencia de los sistemas de clasificación, proponemos un paradigma de decodificación actualizado que emplea a un agente para modificar iterativamente la secuencia de clasificación bajo un presupuesto restringido. Específicamente, diseñamos una optimización de políticas de colocación de clasificación, explorando activamente una política de modificación de clasificación múltiple óptima verificada por LLM a través del aprendizaje de refuerzo (RL). Para aproximar mejor el objetivo LLM bajo el presupuesto restringido, desencadenamos el agente que utiliza completamente el conocimiento de clasificación LITWise sobre todos los elementos verificados por LLM en diferentes rondas en RL, mejorando la política de modificación del agente. Más importante aún, demostramos la robustez y ventajas teóricas de nuestro paradigma e implementación. Los experimentos en tareas IR y RS muestran la efectividad de nuestro método propuesto.
Publicado Originalme en rss.arxiv.org El 27 de mayo de 2025.
Ver Fuente Original