MTIR-SQL: Aprendizaje por refuerzo de razonamiento integrado con herramientas de múltiples turnos para texto a SQL

Resumen: A medida que los modelos de lenguaje grande (LLM) se utilizan cada vez más en tareas de texto a SQL, el aprendizaje por refuerzo (RL) se ha convertido en un método común para mejorar el rendimiento. Los métodos existentes se basan principalmente en comentarios de ejecución estática, lo que restringe la corrección de errores en tiempo real. Sin embargo, la integración de la invocación de herramientas de múltiples turnos junto con la retroalimentación dinámica podría mejorar significativamente la adaptabilidad y la solidez y, en última instancia, mejorar el rendimiento del modelo. Para abordar estos problemas, proponemos MTIR-SQL, un innovador marco de aprendizaje de refuerzo de razonamiento integrado en herramientas de múltiples turnos para Texto a SQL. Nuestro enfoque introduce un paradigma de razonamiento de múltiples turnos consciente de la ejecución que incorpora perfectamente comentarios de ejecución de la base de datos en cada paso de razonamiento, lo que permite la generación de consultas sensibles al contexto y el refinamiento progresivo durante todo el proceso de razonamiento. El marco amplía el algoritmo GRPO para adaptarse a escenarios complejos de interacción de múltiples turnos. Teniendo en cuenta las características de inestabilidad del entrenamiento de MTIR y el potencial de una desviación significativa de la distribución del modelo con respecto al modelo inicial, mejoramos el algoritmo GRPO agregando un mecanismo de filtrado de trayectoria y eliminando las restricciones de pérdida de KL. Los resultados experimentales demuestran que MTIR-SQL, con parámetros 4B, logra textbf{64.4}% de precisión en BIRD Dev y 84.6% de precisión de ejecución en SPIDER Dev, superando significativamente los enfoques existentes.

Publicado originalmente en export.arxiv.org el 29 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

¿Puede la IA percibir el peligro físico e intervenir?

Educación conversacional a escala: un flujo de trabajo de agente de múltiples LLM para el aprendizaje procesal y la evaluación de calidad pedagógica

La Fundación Linux lanza un nuevo evento: Ai.dev: Open Source Genai y ML Summit

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido