Resumen: En este documento, proponemos un algoritmo numérico mejorado para resolver problemas Minimax basados en la optimización no muda, la programación cuadrática y el proceso iterativo. También proporcionamos una prueba rigurosa de convergencia para nuestro algoritmo bajo algunos supuestos leves, como la continuidad del gradiente y la limitación.
Leer más →
Resumen: Si bien el aprendizaje de refuerzo (RL) para modelos de idiomas grandes (LLM) ha mostrado prometedor en el razonamiento matemático, el razonamiento estratégico para LLM que usa RL permanece en gran medida inexplorado. Investigamos si los LLM pueden desarrollar capacidades de razonamiento estratégico a través de RL en ajedrez.
Leer más →
Resumen: En este documento, avanzamos la búsqueda local de módulos de satisfacción La teoría de la aritmética real no lineal (SMT-NRA para abreviar). Primero, presentamos un movimiento de salto celular bidimensional, llamado enft {$ 2d $ -cell-jump}, generalizando la operación clave, celular, del método de búsqueda local para SMT-NRA.
Leer más →