Resumen: La alineación del tiempo de inferencia dirige eficazmente los grandes modelos de lenguaje (LLM) generando múltiples candidatos a partir de un modelo de referencia y seleccionando entre ellos con un modelo de recompensa imperfecto. Sin embargo, las estrategias actuales enfrentan un dilema fundamental: los enfoques “optimistas” como Best-of-N$ sufren de piratería de recompensas, mientras que los métodos regularizados “pesimistas” a menudo sofocan la exploración necesaria para descubrir respuestas de alta calidad. En este trabajo, formalizamos esta compensación a través de la lente de la minimización del arrepentimiento, demostrando que la estrategia óptima depende fundamentalmente del comportamiento final de la distribución de recompensas. Mostramos teóricamente que los regímenes de cola ligera favorecen el optimismo para descubrir valores atípicos de alta calidad, mientras que los regímenes de cola pesada requieren el pesimismo para protegerse contra una mala calibración de las recompensas en los extremos. Guiados por esta idea, presentamos Best-of-Tails (BoT), un marco de alineación de tiempo de inferencia adaptativo que utiliza la divergencia de Tsallis como un regularizador ajustable para proporcionar una granularidad más fina de interpolación entre estos extremos. BoT utiliza el estimador de Hill para caracterizar la intensidad de la cola de recompensa por solicitud y ajusta dinámicamente su regla de selección para equilibrar las ganancias de exploración con el error de alineación. En matemáticas, razonamiento de opción múltiple y evaluaciones de preferencias humanas, BoT mejora el rendimiento de alineación en una variedad de configuraciones de modelos de referencia y recompensa en relación con líneas base de estrategias fijas.
Publicado originalmente en export.arxiv.org el 9 de marzo de 2026.
Ver fuente original
