Resumen: Las consultas de lenguaje natural de la base en las interfaces gráficas de usuario (GUI) plantean desafíos únicos debido a la diversidad de elementos visuales, desorden espacial y la ambigüedad del lenguaje.
Leer más →
Resumen: En este documento, proponemos un algoritmo numérico mejorado para resolver problemas Minimax basados en la optimización no muda, la programación cuadrática y el proceso iterativo. También proporcionamos una prueba rigurosa de convergencia para nuestro algoritmo bajo algunos supuestos leves, como la continuidad del gradiente y la limitación.
Leer más →
Resumen: Si bien el aprendizaje de refuerzo (RL) para modelos de idiomas grandes (LLM) ha mostrado prometedor en el razonamiento matemático, el razonamiento estratégico para LLM que usa RL permanece en gran medida inexplorado. Investigamos si los LLM pueden desarrollar capacidades de razonamiento estratégico a través de RL en ajedrez.
Leer más →