Resumen:Este artículo presenta GeoAgent, un modelo capaz de razonar estrechamente con los humanos y derivar conclusiones de direcciones detalladas.
Leer más →
Resumen:Si bien la decodificación de planificación y relleno en modelos de difusión enmascarada (MDM) es prometedora para el razonamiento matemático y de código, el rendimiento sigue siendo muy sensible al orden de relleno de las ranuras, lo que a menudo produce una variación sustancial de la salida.
Leer más →
Resumen: El aprendizaje por refuerzo con recompensas verificables (RLVR) juega un papel clave en la estimulación de la capacidad de razonamiento explícito de los modelos de lenguaje grande (LLM). Podemos lograr un rendimiento de nivel experto en algunos dominios específicos a través de RLVR, como codificación o matemáticas.
Leer más →