Decodificación en geometría: aliviar la aglomeración del espacio de incrustación para el razonamiento complejo

Resumen: La decodificación basada en muestreo subyace al razonamiento complejo en modelos de lenguaje grandes (LLM), donde las estrategias de decodificación dan forma crítica al comportamiento del modelo.

Leer más →

Comentarios desactivados en Decodificación en geometría: aliviar la aglomeración del espacio de incrustación para el razonamiento complejo

EntroCut: Truncamiento adaptativo guiado por entropía para un razonamiento eficiente en cadena de pensamiento en modelos de razonamiento grandes a pequeña escala

Resumen: Los grandes modelos de razonamiento (LRM) destacan en tareas de razonamiento complejas mediante la generación de cadenas de pensamiento extendidas, pero su dependencia de largos pasos intermedios genera un costo computacional sustancial.

Leer más →

Comentarios desactivados en EntroCut: Truncamiento adaptativo guiado por entropía para un razonamiento eficiente en cadena de pensamiento en modelos de razonamiento grandes a pequeña escala

Obtenga más información con menos: selección de consultas guiadas por coherencia e incertidumbre para RLVR

Resumen: Los modelos de lenguaje grande (LLM) han mejorado recientemente el razonamiento matemático a través del aprendizaje por refuerzo con recompensa verificable (RLVR). Sin embargo, los algoritmos RLVR existentes requieren grandes presupuestos de consulta, lo que hace que la anotación sea costosa.

Leer más →

Comentarios desactivados en Obtenga más información con menos: selección de consultas guiadas por coherencia e incertidumbre para RLVR

Fin del contenido

No hay más páginas por cargar