Resumen: Los modelos de texto a SQL permiten a los usuarios interactuar con una base de datos más fácilmente mediante la generación de declaraciones SQL ejecutables a partir de preguntas en idioma natural. A pesar de los recientes éxitos en bases de datos y preguntas más simples, los métodos actuales de texto a SQL aún sufren de baja precisión de ejecución en bases de datos a escala de la industria y preguntas complejas que involucran una lógica comercial específica del dominio. Presentamos enfl {paverl-sql}, un marco que combina enfl {recompensas de partidos parciales} y enfl {verbal refuerzo aprendizaje} para impulsar la superación personal en modelos de lenguaje de razonamiento (RLMS) para Text-to-SQL. Para manejar casos de uso prácticos, adoptamos dos tuberías: (1) un marco de aprendizaje de contexto recién diseñado con autoevaluación grupal (verbal-RL), utilizando modelos de lenguaje de código abierto y cerrado capaces (LLM) como trompetas; y (2) una tubería RL de cadena de pensamiento (COT) con un pequeño modelo de columna vertebral (OMNISQL-7B) entrenado con una función de recompensa especialmente diseñada y RL de dos etapas. Estas tuberías logran resultados de última generación (SOTA) en puntos de referencia populares de texto a SQL: Spider, Spider 2.0 y Bird. Para el punto de referencia Spider2.0-Sqlite de nivel industrial, la tubería Verbal-RL alcanza una precisión de ejecución 7.4 % más alta que SOTA, y la tubería COT es 1.4 % más alta. El entrenamiento RL con dialectos mixtos de SQL produce fuertes ganancias triple, particularmente para dialectos con datos de entrenamiento limitados. En general, Spt {Pangerl-SQL} ofrece texto confiable de texto a SQL bajo restricciones industriales realistas. El código está disponible en esta URL HTTPS.
Publicado Originalme en export.arxiv.org El 9 de septiembre de 2025.
Ver Fuente Original