Resumen: El lenguaje natural a SQL (NL2SQL) proporciona un nuevo paradigma centrado en el modelo que simplifica el acceso a la base de datos para usuarios no técnicos al convertir las consultas de lenguaje natural en comandos SQL. Los avances recientes, particularmente aquellos que integran el razonamiento de la generación de recuperación (RAG) y la cadena de pensamiento (COT), han hecho avances significativos para mejorar el rendimiento de NL2SQL. Sin embargo, los desafíos como la descomposición inexacta de la tarea y la extracción de palabras clave por parte de los LLM siguen siendo cuellos de botella importantes, lo que a menudo conduce a errores en la generación SQL. Si bien los conjuntos de datos existentes apuntan a mitigar estos problemas mediante modelos ajustados, luchan con la fragmentación excesiva de tareas y la falta de anotaciones de palabras clave específicas de dominio, lo que limita su efectividad. Para abordar estas limitaciones, presentamos DeKeynlu, un nuevo conjunto de datos que contiene 1.500 pares de control de calidad meticulosamente anotados destinados a refinar la descomposición de la tarea y mejorar la precisión de la extracción de palabras clave para la tubería RAG. Afinitado con DeKeynlu, proponemos DeKeysQL, una tubería NL2SQL basada en RAG que emplea tres módulos distintos para la comprensión de las preguntas del usuario, la recuperación de entidades y la generación para mejorar la precisión de la generación de SQL. Benchmaramos múltiples configuraciones de modelos dentro de la tubería de Rag DeKeysql. Los resultados experimentales demuestran que el ajuste fino con DeKeynlu mejora significativamente la precisión de la generación de SQL en los conjuntos de datos de DEV (62.31% a 69.10%) y araña (84.2% a 88.7%).
Publicado Originalme en export.arxiv.org El 18 de septiembre de 2025.
Ver Fuente Original