En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Paverl-sql: texto a SQL a través de recompensas de partidos parciales y aprendizaje de refuerzo verbal

Paverl-sql: texto a SQL a través de recompensas de partidos parciales y aprendizaje de refuerzo verbal

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de texto a SQL permiten a los usuarios interactuar con una base de datos más fácilmente mediante la generación de declaraciones SQL ejecutables a partir de preguntas en idioma natural. A pesar de los recientes éxitos en bases de datos y preguntas más simples, los métodos actuales de texto a SQL aún sufren de baja precisión de ejecución en bases de datos a escala de la industria y preguntas complejas que involucran una lógica comercial específica del dominio. Presentamos enfl {paverl-sql}, un marco que combina enfl {recompensas de partidos parciales} y enfl {verbal refuerzo aprendizaje} para impulsar la superación personal en modelos de lenguaje de razonamiento (RLMS) para Text-to-SQL. Para manejar casos de uso prácticos, adoptamos dos tuberías: (1) un marco de aprendizaje de contexto recién diseñado con autoevaluación grupal (verbal-RL), utilizando modelos de lenguaje de código abierto y cerrado capaces (LLM) como trompetas; y (2) una tubería RL de cadena de pensamiento (COT) con un pequeño modelo de columna vertebral (OMNISQL-7B) entrenado con una función de recompensa especialmente diseñada y RL de dos etapas. Estas tuberías logran resultados de última generación (SOTA) en puntos de referencia populares de texto a SQL: Spider, Spider 2.0 y Bird. Para el punto de referencia Spider2.0-Sqlite de nivel industrial, la tubería Verbal-RL alcanza una precisión de ejecución 7.4 % más alta que SOTA, y la tubería COT es 1.4 % más alta. El entrenamiento RL con dialectos mixtos de SQL produce fuertes ganancias triple, particularmente para dialectos con datos de entrenamiento limitados. En general, Spt {Pangerl-SQL} ofrece texto confiable de texto a SQL bajo restricciones industriales realistas. El código está disponible en esta URL HTTPS.

Publicado Originalme en export.arxiv.org El 9 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web