En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->MTIR-SQL: Aprendizaje por refuerzo de razonamiento integrado con herramientas de múltiples turnos para texto a SQL

MTIR-SQL: Aprendizaje por refuerzo de razonamiento integrado con herramientas de múltiples turnos para texto a SQL

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: A medida que los modelos de lenguaje grande (LLM) se utilizan cada vez más en tareas de texto a SQL, el aprendizaje por refuerzo (RL) se ha convertido en un método común para mejorar el rendimiento. Los métodos existentes se basan principalmente en comentarios de ejecución estática, lo que restringe la corrección de errores en tiempo real. Sin embargo, la integración de la invocación de herramientas de múltiples turnos junto con la retroalimentación dinámica podría mejorar significativamente la adaptabilidad y la solidez y, en última instancia, mejorar el rendimiento del modelo. Para abordar estos problemas, proponemos MTIR-SQL, un innovador marco de aprendizaje de refuerzo de razonamiento integrado en herramientas de múltiples turnos para Texto a SQL. Nuestro enfoque introduce un paradigma de razonamiento de múltiples turnos consciente de la ejecución que incorpora perfectamente comentarios de ejecución de la base de datos en cada paso de razonamiento, lo que permite la generación de consultas sensibles al contexto y el refinamiento progresivo durante todo el proceso de razonamiento. El marco amplía el algoritmo GRPO para adaptarse a escenarios complejos de interacción de múltiples turnos. Teniendo en cuenta las características de inestabilidad del entrenamiento de MTIR y el potencial de una desviación significativa de la distribución del modelo con respecto al modelo inicial, mejoramos el algoritmo GRPO agregando un mecanismo de filtrado de trayectoria y eliminando las restricciones de pérdida de KL. Los resultados experimentales demuestran que MTIR-SQL, con parámetros 4B, logra textbf{64.4}% de precisión en BIRD Dev y 84.6% de precisión de ejecución en SPIDER Dev, superando significativamente los enfoques existentes.

Publicado originalmente en export.arxiv.org el 29 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web