Resumen: La decodificación basada en muestreo subyace al razonamiento complejo en modelos de lenguaje grandes (LLM), donde las estrategias de decodificación dan forma crítica al comportamiento del modelo.
Leer más →
Resumen: Los grandes modelos de razonamiento (LRM) destacan en tareas de razonamiento complejas mediante la generación de cadenas de pensamiento extendidas, pero su dependencia de largos pasos intermedios genera un costo computacional sustancial.
Leer más →
Resumen: Los modelos de lenguaje grande (LLM) han mejorado recientemente el razonamiento matemático a través del aprendizaje por refuerzo con recompensa verificable (RLVR). Sin embargo, los algoritmos RLVR existentes requieren grandes presupuestos de consulta, lo que hace que la anotación sea costosa.
Leer más →