Resumen: La decodificación basada en muestreo subyace al razonamiento complejo en modelos de lenguaje grandes (LLM), donde las estrategias de decodificación dan forma crítica al comportamiento del modelo. Los métodos basados en la temperatura y el truncamiento remodelan la distribución del siguiente token mediante una reponderación o umbralización de la probabilidad global para equilibrar la compensación entre calidad y diversidad. Sin embargo, operan únicamente según las probabilidades de los tokens, ignorando las relaciones detalladas entre los tokens en el espacio de incrustación. Descubrimos un fenómeno novedoso, el apiñamiento del espacio de incrustación, donde la distribución del siguiente token concentra su masa de probabilidad en tokens geométricamente cercanos en el espacio de incrustación. Cuantificamos el hacinamiento en múltiples granularidades y encontramos una asociación estadística con el éxito del razonamiento en la resolución de problemas matemáticos. Motivados por este hallazgo, proponemos CraEG, un método de muestreo plug-and-play que mitiga el hacinamiento mediante una reponderación guiada por geometría. CraEG no requiere entrenamiento, es de un solo paso y es compatible con estrategias de muestreo estándar. Los experimentos con múltiples modelos y puntos de referencia demuestran un mejor rendimiento de la generación, con ganancias en métricas de robustez y diversidad.
Publicado originalmente en export.arxiv.org el 1 de febrero de 2026.
Ver fuente original
